NewsSpider

爬取今日头条，网易，腾讯等新闻,并建立简单的搜索引擎

Go to file

包含网站：

直接执行工程目录下的start.sh，可以启动抓取，索引和检索。可以修改tools/Global.py中的project_root路径，默认所有处理的数据均在该目录下

git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall

scrapy crawl [toutiao|netease|tencent]

抓取的新闻为utf-8格式的，并不是乱码
网易新闻2015年的内容格式和2016的不一样，可以抓取，需要修改xpath解析方式
默认参数可以抓取到13万条左右的数据，
- title.json(不含新闻内容)
- news.json(含新闻内容)，可以在setting.py中修改默认写入选项
- news2db.py 可以将json文件写入sqlite3数据库
所有的数据配置均可以在tool/Global.py中修改