爬取今日头条,网易,腾讯等新闻,并建立简单的搜索引擎
Go to file
2016-04-24 00:16:53 +08:00
news_spider 开始添加检索模块 2016-04-24 00:16:16 +08:00
tutorial 增加今日头条简版一个内容板块的抓取,网站限制最多500页 2016-04-19 10:49:43 +08:00
.gitignore 增加UserAgent池防止爬虫被禁,增加进程锁防止同时开启多个爬虫写入同一个文件出现错误数据 2016-04-23 12:34:35 +08:00
README.md Update README.md 2016-04-23 15:36:42 +08:00

包含网站:

  • 今日头条
  • 网易新闻
  • 腾讯新闻

运行

同时运行所有爬虫

git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall

运行单个爬虫

scrapy crawl toutiao

注意事项

  • 抓取的新闻为utf-8格式的并不是乱码
  • 网易新闻2015年的内容格式和2016的不一样可以抓取需要修改xpath解析方式
  • 默认参数可以抓取到13万条左右的数据保存在title.json(不含新闻内容)news.json(含新闻内容)可以在setting.py中选择