Commit Graph

45 Commits

Author SHA1 Message Date
lzjqsdd
fa56a2d968 增加新闻显示页 2016-05-09 21:26:35 +08:00
lzjqsdd
89baa3e396 Merge branch 'master' of github.com:lzjqsdd/NewsSpider 2016-05-09 18:40:23 +08:00
lzjqsdd
9137db3a02 add show.png 2016-05-09 18:40:17 +08:00
lzjqsdd
e6f256bc82 更新说明 2016-05-09 18:39:28 +08:00
lzjqsdd
0a5e907603 add show 2016-05-09 18:17:43 +08:00
lzjqsdd
59c0044511 对配置文件进行说明 2016-05-09 10:04:44 +08:00
lzjqsdd
8ec307455c 调整页面排版,增加摘要控制属性,调整页面时间格式 2016-05-09 00:48:19 +08:00
lzjqsdd
16faed70ce 修复搜索框内查询 2016-05-08 23:46:31 +08:00
lzjqsdd
596bead678 正常显示新闻页,启动web/main.py 2016-05-08 00:27:26 +08:00
lzjqsdd
088758e67b 简单前端查询 2016-05-07 00:19:09 +08:00
lzjqsdd
4692601b5b Add parase query 2016-05-05 23:04:30 +08:00
lzjqsdd
2626dd15e6 修改稀疏矩阵读取方式,提高建立索引速度,前一次提交复杂度太高 2016-05-05 21:29:25 +08:00
lzjqsdd
996d126b69 修复中文支持 2016-05-04 09:42:52 +08:00
lzjqsdd
ebc727cf9e none 2016-05-04 00:47:53 +08:00
lzjqsdd
d1824516d3 支持英文搜索,中文搜索编码存在问题 2016-05-04 00:46:51 +08:00
lzjqsdd
c5dd35c5aa 暂未解决数据问题 2016-05-03 18:40:45 +08:00
lzjqsdd
69dfb7b4b1 修正关键词对编号的映射模式 2016-05-03 00:40:35 -05:00
lzjqsdd
92e20e0957 写入索引 2016-05-02 23:45:36 +08:00
lzjqsdd
a732b75e58 提取关键词写入文件 2016-04-29 17:56:36 +08:00
lzjqsdd
84a89ec61d 增加部分数据 2016-04-29 16:23:16 +08:00
lzjqsdd
41118e9368 Merge branch 'master' of https://github.com/lzjqsdd/NewsSpider
Conflicts:
	README.md
2016-04-29 16:20:07 +08:00
lzjqsdd
4fc563911f 按属性调整项目结构 2016-04-29 16:08:50 +08:00
lzjqsdd
37e92a5b4c Update README.md 2016-04-28 22:28:44 +08:00
lzjqsdd
fd7e81c2be 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
lzjqsdd
df183760f8 cut file 2016-04-28 12:38:50 +08:00
lzjqsdd
9da1dac6e8 none 2016-04-27 23:21:28 +08:00
lzjqsdd
6c9b4c5051 增加停用词 2016-04-26 00:56:46 +08:00
lzjqsdd
d94fb654dd 增加倒排字典 2016-04-25 23:58:51 +08:00
lzjqsdd
cbb2cc26b3 对新闻中引号转码修复写入数据库语法错误,div.py从数据加载标题并分词 2016-04-25 22:19:00 +08:00
lzjqsdd
ec9165e2ce add parseWord 2016-04-24 23:56:08 +08:00
lzjqsdd
db6bd39356 添加数据库写入功能 2016-04-24 00:17:26 +08:00
lzjqsdd
0f44411114 Merge branch 'master' of https://github.com/lzjqsdd/NewsSpider 2016-04-24 00:16:53 +08:00
lzjqsdd
3541ef0e7e 开始添加检索模块 2016-04-24 00:16:16 +08:00
lzjqsdd
e66e39e2ff Update README.md 2016-04-23 15:36:42 +08:00
lzjqsdd
f447621f0b 说明抓取过程中遇到的问题 2016-04-23 15:36:15 +08:00
lzjqsdd
2f60698e84 Update README.md
修改程序说明
2016-04-23 12:44:24 +08:00
lzjqsdd
d7a3e28f59 增加UserAgent池防止爬虫被禁,增加进程锁防止同时开启多个爬虫写入同一个文件出现错误数据 2016-04-23 12:34:35 +08:00
lzjqsdd
cfed93f3ef 修改时间为时间戳格式,同时运行三个spider写入一个文件会出现脏数据 2016-04-22 17:16:06 +08:00
lzjqsdd
3201d09c43 Add TencentSpider,Add SelfDefine Command to run mulity spider 2016-04-22 10:14:42 +08:00
lzjqsdd
2a312aa769 修复网易新闻抓取时间提取错误,增加提取的新闻数据(仅时间标题) 2016-04-21 22:44:36 +08:00
lzjqsdd
37288e7260 增加网易历史新闻数据抓取,由于各个页面的时间布局有出入,应采用正则提取时间 2016-04-19 23:49:36 +08:00
lzjqsdd
47865e367d 主要增加网易新闻抓取,其他:修改头条新闻内容换行表达,增加浏览器标识解决网易无法抓取问题 2016-04-19 18:18:45 +08:00
lzjqsdd
d10ebdec47 增加其他分类抓取 2016-04-19 11:26:16 +08:00
lzjqsdd
a37d701063 增加今日头条简版一个内容板块的抓取,网站限制最多500页 2016-04-19 10:49:43 +08:00
lzjqsdd
387eddfa2f Initial commit 2016-04-19 10:25:16 +08:00