2018-08-06 16:35:09 +08:00
|
|
|
|
#### Tips
|
|
|
|
|
|
2018-09-07 19:45:54 +08:00
|
|
|
|
|
|
|
|
|
- 如果是项目问题,请提issue。
|
|
|
|
|
- 如果涉及到不方便公开的,请发邮件。
|
2019-11-21 19:48:02 +08:00
|
|
|
|
- ChatBot请访问[链接](http://bot.rubenxiao.com/)
|
2018-08-06 16:35:09 +08:00
|
|
|
|
|
2018-04-24 14:43:30 +08:00
|
|
|
|
# 开源web知识图谱项目
|
|
|
|
|
|
|
|
|
|
- 爬取百度百科中文页面
|
2018-06-07 15:09:30 +08:00
|
|
|
|
- 抽取[100W+个三元组](https://raw.githubusercontent.com/lixiang0/WEB_KG/master/kg/triples.txt)
|
2018-04-24 14:43:30 +08:00
|
|
|
|
- 构建中文知识图谱
|
|
|
|
|
|
2018-01-15 15:56:26 +08:00
|
|
|
|
### 环境
|
|
|
|
|
|
|
|
|
|
- python 3.6
|
|
|
|
|
- requests:网络请求
|
2018-05-21 20:21:49 +08:00
|
|
|
|
- re:url正则匹配
|
2018-01-15 15:56:26 +08:00
|
|
|
|
- bs4:网页解析
|
|
|
|
|
- pickle:进度保存
|
2018-05-21 20:21:49 +08:00
|
|
|
|
- threading:多线程
|
2018-05-24 10:30:10 +08:00
|
|
|
|
- neo4j:知识图谱图数据库,安装可以参考[链接](http://blog.rubenxiao.com/posts/install-neo4j.html)
|
2018-04-24 14:43:30 +08:00
|
|
|
|
- pip install neo4j-driver:neo4j python驱动
|
2018-01-15 15:56:26 +08:00
|
|
|
|
|
2018-05-21 20:21:49 +08:00
|
|
|
|
|
|
|
|
|
### 代码目錄
|
|
|
|
|
|
|
|
|
|
- spider/ 抓取原始网页
|
|
|
|
|
- ie/ 从网页中解析正文,从正文中抽取结构化信息
|
|
|
|
|
- kg/ 抽取三元組,存入neo4j数据库
|
2018-01-15 15:56:26 +08:00
|
|
|
|
|
|
|
|
|
|
2018-05-21 20:21:49 +08:00
|
|
|
|
### 代码执行顺序:
|
2018-01-15 15:56:26 +08:00
|
|
|
|
|
2018-09-07 19:53:03 +08:00
|
|
|
|
|
2018-09-07 19:52:47 +08:00
|
|
|
|
- 1.spider目录下执行:python spider_main.py
|
|
|
|
|
- 2.ie目录下执行:python extract-para.py
|
|
|
|
|
- 3.ie目录下执行:python extract-table.py
|
|
|
|
|
- 4.kg目录下执行:python build-triple-from-table.py
|
|
|
|
|
- 5.kg目录下执行:python insert_to_neo4j.py
|
2018-09-07 19:53:03 +08:00
|
|
|
|
|
2019-05-12 18:57:20 +08:00
|
|
|
|
第二步本项目可以不执行。
|
2018-01-15 15:56:26 +08:00
|
|
|
|
|
2018-09-07 19:45:54 +08:00
|
|
|
|
### 知识图谱效果图
|
2018-05-21 20:21:49 +08:00
|
|
|
|
|
|
|
|
|
![](./kg/kg.png)
|
|
|
|
|
|