爬取今日头条,网易,腾讯等新闻,并建立简单的搜索引擎
Go to file
2019-10-09 16:26:39 +00:00
data Optimize code 2019-10-09 16:26:39 +00:00
ml Optimize code 2019-10-09 16:26:39 +00:00
news_spider Optimize code 2019-10-09 16:26:39 +00:00
test Optimize code 2019-10-09 16:26:39 +00:00
testdata/data Optimize code 2019-10-09 16:26:39 +00:00
tools Optimize code 2019-10-09 16:26:39 +00:00
web Optimize code 2019-10-09 16:26:39 +00:00
.gitignore Optimize code 2019-10-09 16:26:39 +00:00
Frame.md Optimize code 2019-10-09 16:26:39 +00:00
README.md Optimize code 2019-10-09 16:26:39 +00:00
requirements.txt Optimize code 2019-10-09 16:26:39 +00:00
start.sh 一键式抓取并启动,增加少量测试数据 2016-05-12 23:39:25 +08:00

包含网站:

  • 今日头条
  • 网易新闻
  • 腾讯新闻

主要功能

  • 新闻抓取
  • 索引构建
  • 前端搜索

整体结构

运行

一键启动

直接执行工程目录下的start.sh可以启动抓取索引和检索。可以修改tools/Global.py中的project_root路径默认所有处理的数据均在该目录下

同时运行所有爬虫

git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall

运行单个爬虫

scrapy crawl [toutiao|netease|tencent]

数据及注意事项

  • 抓取的新闻为utf-8格式的并不是乱码
  • 网易新闻2015年的内容格式和2016的不一样可以抓取需要修改xpath解析方式
  • 默认参数可以抓取到13万条左右的数据
    • title.json(不含新闻内容)
    • news.json(含新闻内容)可以在setting.py中修改默认写入选项
    • news2db.py 可以将json文件写入sqlite3数据库
  • 所有的数据配置均可以在tool/Global.py中修改

TODO

  • 相似新闻推荐
  • 排序算法

Demo展示

Demo