NewsSpider/ml
2016-04-28 22:26:14 +08:00
..
Cut.py 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
Cut.pyc 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
Global.py 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
Global.pyc 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
InverseIndex.py 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
README.md 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
Search.py 增加tfidf计算,梳理搜索结构 2016-04-28 22:26:14 +08:00
stopword.txt 增加停用词 2016-04-26 00:56:46 +08:00

#新闻检索系统框架

##后端程序

抓取新闻

  • Step1:采集网易头条和腾讯新闻以json格式保存
  • Step2:由于抓取内容较大对文件进行拆分每个文件保存100个新闻文档 ++新闻在文件中的书序默认从1开始到结束++

构建索引

  • 根据tf-idf提取每篇新闻文档的关键词。
  • 建立倒排索引,以小文件进行存储,因此需要维护两个词典
    • 词项-编号以json格式存储到文件启动系统初加载到字典中。
    • 词项-文档编号,(即倒排记录),查询时按需进行加载。
  • 避免一次性读写,分批次读取新闻内容,建好索引写入文件,对于已经出现的词项更新倒排记录。

检索

  • Step1:对输入的词或句子进行拆分,分别查询每个词
  • Step2:对每个词返回的倒排记录进行合并,得到最终的查询记录。优化:按照文档频率从小到大进行合并
  • Step3:可以考虑对结果按时间进行排序。
  • Step4:返回内容摘要及url链接

###相似新闻推荐 ++待定++

##前段展示

  • 暂定使用webpy轻量级框架进行开发。
  • 页面结构
    • 搜索首页
    • 搜索结果展示页
    • 新闻页(侧边包含推荐相似新闻部分)