NewsSpider/Frame.md
2019-10-09 16:26:39 +00:00

30 lines
1.2 KiB
Markdown
Executable File
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

#新闻检索系统框架
##后端程序
### 抓取新闻
- Step1:采集网易头条和腾讯新闻以json格式保存
- Step2:由于抓取内容较大对文件进行拆分每个文件保存100个新闻文档
++**新闻在文件中的书序默认从1开始到结束**++
### 构建索引
- 根据tf-idf提取每篇新闻文档的关键词。
- 建立倒排索引,以小文件进行存储,因此需要维护两个词典
- `词项-编号`以json格式存储到文件启动系统初加载到字典中。
- `词项-文档编号`,(即倒排记录),查询时按需进行加载。
- 避免一次性读写,分批次读取新闻内容,建好索引写入文件,对于已经出现的词项更新倒排记录。
### 检索
- Step1:对输入的词或句子进行拆分,分别查询每个词
- Step2:对每个词返回的倒排记录进行合并,得到最终的查询记录。**优化:按照文档频率从小到大进行合并**
- Step3:可以考虑对结果按时间进行排序。
- Step4:返回内容摘要及url链接
###~~相似新闻推荐~~
**++待定++**
##前段展示
- 暂定使用webpy轻量级框架进行开发。
- 页面结构
- 搜索首页
- 搜索结果展示页
- 新闻页(侧边包含推荐相似新闻部分)