2016-04-23 12:44:24 +08:00
|
|
|
|
## 包含网站:
|
|
|
|
|
- 今日头条
|
|
|
|
|
- 网易新闻
|
|
|
|
|
- 腾讯新闻
|
|
|
|
|
|
2016-05-09 18:39:28 +08:00
|
|
|
|
## 主要功能
|
|
|
|
|
- 新闻抓取
|
|
|
|
|
- 索引构建
|
|
|
|
|
- 前端搜索
|
|
|
|
|
|
2016-04-29 16:20:07 +08:00
|
|
|
|
### [整体结构](https://github.com/lzjqsdd/NewsSpider/blob/master/Frame.md)
|
2016-04-29 16:08:50 +08:00
|
|
|
|
|
2016-04-23 12:44:24 +08:00
|
|
|
|
## 运行
|
|
|
|
|
|
2016-05-12 23:41:21 +08:00
|
|
|
|
### 一键启动
|
|
|
|
|
直接执行工程目录下的start.sh,可以启动抓取,索引和检索。
|
|
|
|
|
|
2016-04-23 12:44:24 +08:00
|
|
|
|
### 同时运行所有爬虫
|
|
|
|
|
```shell
|
|
|
|
|
git clone https://github.com/lzjqsdd/NewsSpider.git
|
|
|
|
|
cd NewsSpider/news_spider
|
|
|
|
|
scrapy crawlall
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
### 运行单个爬虫
|
|
|
|
|
```shell
|
2016-04-25 22:19:00 +08:00
|
|
|
|
scrapy crawl [toutiao|netease|tencent]
|
2016-04-23 12:44:24 +08:00
|
|
|
|
```
|
2016-04-23 15:36:15 +08:00
|
|
|
|
|
2016-04-25 22:19:00 +08:00
|
|
|
|
### 数据及注意事项
|
2016-04-23 15:36:42 +08:00
|
|
|
|
- 抓取的新闻为utf-8格式的,并不是乱码
|
|
|
|
|
- 网易新闻2015年的内容格式和2016的不一样,可以抓取,需要修改xpath解析方式
|
2016-04-25 22:19:00 +08:00
|
|
|
|
- 默认参数可以抓取到13万条左右的数据,
|
|
|
|
|
- title.json(不含新闻内容)
|
|
|
|
|
- news.json(含新闻内容),可以在setting.py中修改默认写入选项
|
|
|
|
|
- `news2db.py` 可以将json文件写入`sqlite3`数据库
|
2016-05-11 18:47:10 +08:00
|
|
|
|
- 所有的数据配置均可以在tool/Global.py中修改
|
2016-05-09 18:39:28 +08:00
|
|
|
|
|
2016-05-11 18:47:10 +08:00
|
|
|
|
### TODO
|
|
|
|
|
- 相似新闻推荐
|
|
|
|
|
- 排序算法
|
2016-05-11 18:48:05 +08:00
|
|
|
|
|
2016-05-09 18:39:28 +08:00
|
|
|
|
### Demo展示
|
|
|
|
|
![Demo](https://github.com/lzjqsdd/NewsSpider/blob/master/data/show.png)
|