This commit is contained in:
lzjqsdd 2016-04-24 00:16:53 +08:00
commit 0f44411114

View File

@ -1,2 +1,23 @@
# NewsSpider
爬取今日头条,网易,新浪,腾讯等新闻
## 包含网站:
- 今日头条
- 网易新闻
- 腾讯新闻
## 运行
### 同时运行所有爬虫
```shell
git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall
```
### 运行单个爬虫
```shell
scrapy crawl toutiao
```
### 注意事项
- 抓取的新闻为utf-8格式的并不是乱码
- 网易新闻2015年的内容格式和2016的不一样可以抓取需要修改xpath解析方式
- 默认参数可以抓取到13万条左右的数据保存在title.json(不含新闻内容)news.json(含新闻内容)可以在setting.py中选择