NewsSpider

爬取今日头条，网易，腾讯等新闻,并建立简单的搜索引擎

Go to file

lzjqsdd dab84638f0 add README.md		2016-05-12 23:41:21 +08:00
data	add show.png	2016-05-09 18:40:17 +08:00
ml	一键式抓取并启动，增加少量测试数据	2016-05-12 23:39:25 +08:00
news_spider	一键式抓取并启动，增加少量测试数据	2016-05-12 23:39:25 +08:00
test	修改稀疏矩阵读取方式，提高建立索引速度，前一次提交复杂度太高	2016-05-05 21:29:25 +08:00
testdata/data	一键式抓取并启动，增加少量测试数据	2016-05-12 23:39:25 +08:00
tools	一键式抓取并启动，增加少量测试数据	2016-05-12 23:39:25 +08:00
web	增加新闻显示页	2016-05-09 21:26:35 +08:00
.gitignore	支持英文搜索，中文搜索编码存在问题	2016-05-04 00:46:51 +08:00
Frame.md	按属性调整项目结构	2016-04-29 16:08:50 +08:00
README.md	add README.md	2016-05-12 23:41:21 +08:00
start.sh	一键式抓取并启动，增加少量测试数据	2016-05-12 23:39:25 +08:00

包含网站：

直接执行工程目录下的start.sh，可以启动抓取，索引和检索。

git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall

scrapy crawl [toutiao|netease|tencent]

抓取的新闻为utf-8格式的，并不是乱码
网易新闻2015年的内容格式和2016的不一样，可以抓取，需要修改xpath解析方式
默认参数可以抓取到13万条左右的数据，
- title.json(不含新闻内容)
- news.json(含新闻内容)，可以在setting.py中修改默认写入选项
- news2db.py 可以将json文件写入sqlite3数据库
所有的数据配置均可以在tool/Global.py中修改