爬取今日头条,网易,腾讯等新闻,并建立简单的搜索引擎
Go to file
lzjqsdd 2f60698e84 Update README.md
修改程序说明
2016-04-23 12:44:24 +08:00
news_spider 增加UserAgent池防止爬虫被禁,增加进程锁防止同时开启多个爬虫写入同一个文件出现错误数据 2016-04-23 12:34:35 +08:00
tutorial 增加今日头条简版一个内容板块的抓取,网站限制最多500页 2016-04-19 10:49:43 +08:00
.gitignore 增加UserAgent池防止爬虫被禁,增加进程锁防止同时开启多个爬虫写入同一个文件出现错误数据 2016-04-23 12:34:35 +08:00
README.md Update README.md 2016-04-23 12:44:24 +08:00

包含网站:

  • 今日头条
  • 网易新闻
  • 腾讯新闻

运行

同时运行所有爬虫

git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall

运行单个爬虫

scrapy crawl toutiao