NewsSpider/README.md

## 包含网站：
- 今日头条
- 网易新闻
- 腾讯新闻

## 运行

### 同时运行所有爬虫
```shell
git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall
```

### 运行单个爬虫
```shell
scrapy crawl toutiao
```

### 注意事项
  - 抓取的新闻为utf-8格式的，并不是乱码
  - 网易新闻2015年的内容格式和2016的不一样，可以抓取，需要修改xpath解析方式
  - 默认参数可以抓取到13万条左右的数据，保存在title.json(不含新闻内容)，news.json(含新闻内容)，可以在setting.py中选择