diff --git a/README.md b/README.md index 91d9549..9cc5f0f 100644 --- a/README.md +++ b/README.md @@ -16,3 +16,8 @@ scrapy crawlall ```shell scrapy crawl toutiao ``` + +### 注意事项 + 抓取的新闻为utf-8格式的,并不是乱码 + 网易新闻2015年的内容格式和2016的不一样,可以抓取,需要修改xpath解析方式 + 默认参数可以抓取到13万条左右的数据,保存在title.json(不含新闻内容),news.json(含新闻内容),可以在setting.py中选择