30 lines
1.2 KiB
Markdown
Executable File
30 lines
1.2 KiB
Markdown
Executable File
#新闻检索系统框架
|
||
|
||
##后端程序
|
||
### 抓取新闻
|
||
- Step1:采集网易,头条和腾讯新闻,以json格式保存
|
||
- Step2:由于抓取内容较大,对文件进行拆分,每个文件保存100个新闻文档
|
||
++**新闻在文件中的书序默认从1开始到结束**++
|
||
|
||
### 构建索引
|
||
- 根据tf-idf提取每篇新闻文档的关键词。
|
||
- 建立倒排索引,以小文件进行存储,因此需要维护两个词典
|
||
- `词项-编号`,以json格式存储到文件,启动系统初加载到字典中。
|
||
- `词项-文档编号`,(即倒排记录),查询时按需进行加载。
|
||
- 避免一次性读写,分批次读取新闻内容,建好索引写入文件,对于已经出现的词项更新倒排记录。
|
||
|
||
### 检索
|
||
- Step1:对输入的词或句子进行拆分,分别查询每个词
|
||
- Step2:对每个词返回的倒排记录进行合并,得到最终的查询记录。**优化:按照文档频率从小到大进行合并**
|
||
- Step3:可以考虑对结果按时间进行排序。
|
||
- Step4:返回内容摘要及url链接
|
||
|
||
###~~相似新闻推荐~~
|
||
**++待定++**
|
||
|
||
##前段展示
|
||
- 暂定使用webpy轻量级框架进行开发。
|
||
- 页面结构
|
||
- 搜索首页
|
||
- 搜索结果展示页
|
||
- 新闻页(侧边包含推荐相似新闻部分) |