Merge branch 'master' of https://github.com/lzjqsdd/NewsSpider
This commit is contained in:
commit
0f44411114
25
README.md
25
README.md
@ -1,2 +1,23 @@
|
||||
# NewsSpider
|
||||
爬取今日头条,网易,新浪,腾讯等新闻
|
||||
## 包含网站:
|
||||
- 今日头条
|
||||
- 网易新闻
|
||||
- 腾讯新闻
|
||||
|
||||
## 运行
|
||||
|
||||
### 同时运行所有爬虫
|
||||
```shell
|
||||
git clone https://github.com/lzjqsdd/NewsSpider.git
|
||||
cd NewsSpider/news_spider
|
||||
scrapy crawlall
|
||||
```
|
||||
|
||||
### 运行单个爬虫
|
||||
```shell
|
||||
scrapy crawl toutiao
|
||||
```
|
||||
|
||||
### 注意事项
|
||||
- 抓取的新闻为utf-8格式的,并不是乱码
|
||||
- 网易新闻2015年的内容格式和2016的不一样,可以抓取,需要修改xpath解析方式
|
||||
- 默认参数可以抓取到13万条左右的数据,保存在title.json(不含新闻内容),news.json(含新闻内容),可以在setting.py中选择
|
||||
|
Loading…
Reference in New Issue
Block a user