Update README.md

This commit is contained in:
lzjqsdd 2016-04-23 15:36:42 +08:00
parent f447621f0b
commit e66e39e2ff

View File

@ -18,6 +18,6 @@ scrapy crawl toutiao
```
### 注意事项
抓取的新闻为utf-8格式的并不是乱码
网易新闻2015年的内容格式和2016的不一样可以抓取需要修改xpath解析方式
默认参数可以抓取到13万条左右的数据保存在title.json(不含新闻内容)news.json(含新闻内容)可以在setting.py中选择
- 抓取的新闻为utf-8格式的并不是乱码
- 网易新闻2015年的内容格式和2016的不一样可以抓取需要修改xpath解析方式
- 默认参数可以抓取到13万条左右的数据保存在title.json(不含新闻内容)news.json(含新闻内容)可以在setting.py中选择