爬取今日头条,网易,腾讯等新闻,并建立简单的搜索引擎
Go to file
2016-05-07 00:19:09 +08:00
data 增加部分数据 2016-04-29 16:23:16 +08:00
ml 简单前端查询 2016-05-07 00:19:09 +08:00
news_spider 修改稀疏矩阵读取方式,提高建立索引速度,前一次提交复杂度太高 2016-05-05 21:29:25 +08:00
test 修改稀疏矩阵读取方式,提高建立索引速度,前一次提交复杂度太高 2016-05-05 21:29:25 +08:00
tools 修改稀疏矩阵读取方式,提高建立索引速度,前一次提交复杂度太高 2016-05-05 21:29:25 +08:00
.gitignore 支持英文搜索,中文搜索编码存在问题 2016-05-04 00:46:51 +08:00
Frame.md 按属性调整项目结构 2016-04-29 16:08:50 +08:00
README.md Merge branch 'master' of https://github.com/lzjqsdd/NewsSpider 2016-04-29 16:20:07 +08:00

包含网站:

  • 今日头条
  • 网易新闻
  • 腾讯新闻

整体结构

运行

同时运行所有爬虫

git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall

运行单个爬虫

scrapy crawl [toutiao|netease|tencent]

数据及注意事项

  • 抓取的新闻为utf-8格式的并不是乱码
  • 网易新闻2015年的内容格式和2016的不一样可以抓取需要修改xpath解析方式
  • 默认参数可以抓取到13万条左右的数据
    • title.json(不含新闻内容)
    • news.json(含新闻内容)可以在setting.py中修改默认写入选项
    • news2db.py 可以将json文件写入sqlite3数据库