diff --git a/README.md b/README.md index 9cc5f0f..40fd24d 100644 --- a/README.md +++ b/README.md @@ -18,6 +18,6 @@ scrapy crawl toutiao ``` ### 注意事项 - 抓取的新闻为utf-8格式的,并不是乱码 - 网易新闻2015年的内容格式和2016的不一样,可以抓取,需要修改xpath解析方式 - 默认参数可以抓取到13万条左右的数据,保存在title.json(不含新闻内容),news.json(含新闻内容),可以在setting.py中选择 + - 抓取的新闻为utf-8格式的,并不是乱码 + - 网易新闻2015年的内容格式和2016的不一样,可以抓取,需要修改xpath解析方式 + - 默认参数可以抓取到13万条左右的数据,保存在title.json(不含新闻内容),news.json(含新闻内容),可以在setting.py中选择