目标是拿Kotlin写各种有趣的爬虫。然后用Javascript做各种效果。
- 网易歌词爬虫
- 微博爬虫
- QQ爬虫
- 知乎日报
这里目前只说已经做完的爬虫。
这是一个爬取歌词然后进行分析的小程序。根据歌手的名字找到歌手的id,在通过歌手的id查找歌手top50的歌曲,然后获取歌词并过滤掉一些不需要的信息。找出最常使用的那些词组存到数据库里做缓存。找出词组使用了结巴分词当查询歌手的时候,先判断数据库有没有这个歌手的记录,如果有直接从数据库中查找歌词列表,如果没有,在线爬取。前端使用了d3-cloud生成词云。主要想生成的词云样子如下:
主要有以下方面
- 我在学习这门语言
- 我喜欢这门语言
- 这门语言是一门不错的语言,有些地方可以写的很短
- 因为我是java开发者,完全兼容java,所以我用着还行
现在是2017年10月21日13:59:42,完全忘记了这个东西....