NewsSpider

爬取今日头条，网易，腾讯等新闻,并建立简单的搜索引擎

Go to file

lzjqsdd fd7e81c2be 增加tfidf计算，梳理搜索结构		2016-04-28 22:26:14 +08:00
ml	增加tfidf计算，梳理搜索结构	2016-04-28 22:26:14 +08:00
news_spider	增加停用词	2016-04-26 00:56:46 +08:00
tutorial	增加今日头条简版一个内容板块的抓取，网站限制最多500页	2016-04-19 10:49:43 +08:00
.gitignore	增加tfidf计算，梳理搜索结构	2016-04-28 22:26:14 +08:00
README.md	对新闻中引号转码修复写入数据库语法错误，div.py从数据加载标题并分词	2016-04-25 22:19:00 +08:00

包含网站：

git clone https://github.com/lzjqsdd/NewsSpider.git
cd NewsSpider/news_spider
scrapy crawlall

scrapy crawl [toutiao|netease|tencent]

抓取的新闻为utf-8格式的，并不是乱码
网易新闻2015年的内容格式和2016的不一样，可以抓取，需要修改xpath解析方式
默认参数可以抓取到13万条左右的数据，
- title.json(不含新闻内容)
- news.json(含新闻内容)，可以在setting.py中修改默认写入选项
- news2db.py 可以将json文件写入sqlite3数据库