Commit Graph

  • 849e65c595
    Merge c5040c815a into 58c576edda dependabot[bot] 2022-07-29 22:38:01 +0000
  • c5040c815a
    Bump scrapy from 1.7.3 to 2.6.2 dependabot/pip/scrapy-2.6.2 dependabot[bot] 2022-07-29 22:37:59 +0000
  • 67861bcdf9
    Bump scrapy from 1.7.3 to 2.6.1 dependabot[bot] 2022-06-17 22:14:48 +0000
  • 51784551bc
    Bump scrapy from 1.7.3 to 1.8.2 dependabot[bot] 2022-03-02 15:01:12 +0000
  • 7bcbbae062
    Bump scrapy from 1.7.3 to 1.8.1 dependabot[bot] 2021-10-06 23:14:16 +0000
  • 58c576edda
    Merge pull request #7 from JIMhackKING/master master lzjqsdd 2020-02-25 17:34:25 +0800
  • 9125685a3a Optimize code DHC 2019-10-09 16:26:39 +0000
  • 71c564deb8 优化代码,提高代码可移植性 dhc_king 2019-09-26 03:55:32 +0000
  • 77c7f322a5 更新使用说明 lzjqsdd 2016-05-13 23:58:38 +0800
  • dab84638f0 add README.md v0.4 lzjqsdd 2016-05-12 23:41:21 +0800
  • 6a885ee1d6 Merge branch 'master' of github.com:lzjqsdd/NewsSpider lzjqsdd 2016-05-12 23:39:40 +0800
  • 4b6435a5c1 一键式抓取并启动,增加少量测试数据 lzjqsdd 2016-05-12 23:39:25 +0800
  • 92cdd929b9 Update README.md lzjqsdd 2016-05-11 05:48:05 -0500
  • 30361c0b19 更新程序说明 lzjqsdd 2016-05-11 05:47:10 -0500
  • fa56a2d968 增加新闻显示页 v0.3 lzjqsdd 2016-05-09 21:26:35 +0800
  • 89baa3e396 Merge branch 'master' of github.com:lzjqsdd/NewsSpider lzjqsdd 2016-05-09 18:40:23 +0800
  • 9137db3a02 add show.png lzjqsdd 2016-05-09 18:40:17 +0800
  • e6f256bc82 更新说明 lzjqsdd 2016-05-09 18:39:28 +0800
  • 0a5e907603 add show lzjqsdd 2016-05-09 18:17:43 +0800
  • 59c0044511 对配置文件进行说明 lzjqsdd 2016-05-09 10:04:44 +0800
  • 8ec307455c 调整页面排版,增加摘要控制属性,调整页面时间格式 lzjqsdd 2016-05-09 00:48:19 +0800
  • 16faed70ce 修复搜索框内查询 lzjqsdd 2016-05-08 23:46:31 +0800
  • 596bead678 正常显示新闻页,启动web/main.py lzjqsdd 2016-05-08 00:27:26 +0800
  • 088758e67b 简单前端查询 lzjqsdd 2016-05-07 00:19:09 +0800
  • 4692601b5b Add parase query lzjqsdd 2016-05-05 23:04:30 +0800
  • 2626dd15e6 修改稀疏矩阵读取方式,提高建立索引速度,前一次提交复杂度太高 lzjqsdd 2016-05-05 21:29:25 +0800
  • 996d126b69 修复中文支持 lzjqsdd 2016-05-04 09:42:52 +0800
  • ebc727cf9e none v0.2 lzjqsdd 2016-05-04 00:47:53 +0800
  • d1824516d3 支持英文搜索,中文搜索编码存在问题 lzjqsdd 2016-05-04 00:46:51 +0800
  • c5dd35c5aa 暂未解决数据问题 lzjqsdd 2016-05-03 18:40:45 +0800
  • 69dfb7b4b1 修正关键词对编号的映射模式 lzjqsdd 2016-05-03 00:40:35 -0500
  • 92e20e0957 写入索引 lzjqsdd 2016-05-02 23:45:36 +0800
  • a732b75e58 提取关键词写入文件 lzjqsdd 2016-04-29 17:56:36 +0800
  • 84a89ec61d 增加部分数据 v0.1 lzjqsdd 2016-04-29 16:23:16 +0800
  • 41118e9368 Merge branch 'master' of https://github.com/lzjqsdd/NewsSpider lzjqsdd 2016-04-29 16:20:07 +0800
  • 4fc563911f 按属性调整项目结构 lzjqsdd 2016-04-29 16:08:50 +0800
  • 37e92a5b4c Update README.md lzjqsdd 2016-04-28 22:28:44 +0800
  • fd7e81c2be 增加tfidf计算,梳理搜索结构 lzjqsdd 2016-04-28 22:26:14 +0800
  • df183760f8 cut file lzjqsdd 2016-04-28 12:38:50 +0800
  • 9da1dac6e8 none lzjqsdd 2016-04-27 23:21:28 +0800
  • 6c9b4c5051 增加停用词 lzjqsdd 2016-04-26 00:56:46 +0800
  • d94fb654dd 增加倒排字典 lzjqsdd 2016-04-25 23:58:51 +0800
  • cbb2cc26b3 对新闻中引号转码修复写入数据库语法错误,div.py从数据加载标题并分词 lzjqsdd 2016-04-25 22:19:00 +0800
  • ec9165e2ce add parseWord lzjqsdd 2016-04-24 23:56:08 +0800
  • db6bd39356 添加数据库写入功能 lzjqsdd 2016-04-24 00:17:26 +0800
  • 0f44411114 Merge branch 'master' of https://github.com/lzjqsdd/NewsSpider lzjqsdd 2016-04-24 00:16:53 +0800
  • 3541ef0e7e 开始添加检索模块 lzjqsdd 2016-04-24 00:16:16 +0800
  • e66e39e2ff Update README.md lzjqsdd 2016-04-23 15:36:42 +0800
  • f447621f0b 说明抓取过程中遇到的问题 lzjqsdd 2016-04-23 15:36:15 +0800
  • 2f60698e84 Update README.md lzjqsdd 2016-04-23 12:44:24 +0800
  • d7a3e28f59 增加UserAgent池防止爬虫被禁,增加进程锁防止同时开启多个爬虫写入同一个文件出现错误数据 lzjqsdd 2016-04-23 12:34:35 +0800
  • cfed93f3ef 修改时间为时间戳格式,同时运行三个spider写入一个文件会出现脏数据 lzjqsdd 2016-04-22 17:16:06 +0800
  • 3201d09c43 Add TencentSpider,Add SelfDefine Command to run mulity spider lzjqsdd 2016-04-22 10:13:34 +0800
  • 2a312aa769 修复网易新闻抓取时间提取错误,增加提取的新闻数据(仅时间标题) lzjqsdd 2016-04-21 22:44:36 +0800
  • 37288e7260 增加网易历史新闻数据抓取,由于各个页面的时间布局有出入,应采用正则提取时间 lzjqsdd 2016-04-19 23:49:36 +0800
  • 47865e367d 主要增加网易新闻抓取,其他:修改头条新闻内容换行表达,增加浏览器标识解决网易无法抓取问题 lzjqsdd 2016-04-19 18:18:45 +0800
  • d10ebdec47 增加其他分类抓取 lzjqsdd 2016-04-19 11:26:16 +0800
  • a37d701063 增加今日头条简版一个内容板块的抓取,网站限制最多500页 lzjqsdd 2016-04-19 10:49:43 +0800
  • 387eddfa2f Initial commit lzjqsdd 2016-04-19 10:25:16 +0800