NewsSpider/README.md

29 lines
795 B
Markdown
Raw Normal View History

2016-04-23 12:44:24 +08:00
## 包含网站:
- 今日头条
- 网易新闻
- 腾讯新闻
### [整体结构](https://github.com/lzjqsdd/NewsSpider/blob/master/Frame.md)
2016-04-29 16:08:50 +08:00
2016-04-23 12:44:24 +08:00
## 运行
### 同时运行所有爬虫
```shell
git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall
```
### 运行单个爬虫
```shell
scrapy crawl [toutiao|netease|tencent]
2016-04-23 12:44:24 +08:00
```
2016-04-23 15:36:15 +08:00
### 数据及注意事项
2016-04-23 15:36:42 +08:00
- 抓取的新闻为utf-8格式的并不是乱码
- 网易新闻2015年的内容格式和2016的不一样可以抓取需要修改xpath解析方式
- 默认参数可以抓取到13万条左右的数据
- title.json(不含新闻内容)
- news.json(含新闻内容)可以在setting.py中修改默认写入选项
- `news2db.py` 可以将json文件写入`sqlite3`数据库