KG/WEB_KG

爬取百度百科中文页面，抽取三元组信息，构建中文知识图谱

baidu baike knowledge-graph neo4j nlp spider wiki

Go to file

Your Name d0c836be14 修改item的解析方式，解决一个词条多个页面的问题		2019-06-10 10:11:05 +08:00
ie	fix issue 8	2019-04-02 12:59:36 +08:00
kg	update	2018-09-07 19:45:54 +08:00
spider	修改item的解析方式，解决一个词条多个页面的问题	2019-06-10 10:11:05 +08:00
.gitignore	优化百科词条的提取方式	2019-06-05 11:46:01 +08:00
README.md	Merge branch 'master' of https://github.com/lixiang0/WEB_KG	2019-05-12 19:01:18 +08:00

README.md

Tips

如果是项目问题，请提issue。
如果涉及到不方便公开的，请发邮件。
ChatBot请访问链接

开源web知识图谱项目

爬取百度百科中文页面
抽取100W+个三元组
构建中文知识图谱

环境

python 3.6
requests:网络请求
re:url正则匹配
bs4:网页解析
pickle:进度保存
threading:多线程
neo4j:知识图谱图数据库,安装可以参考链接
pip install neo4j-driver：neo4j python驱动

代码目錄

spider/ 抓取原始网页
ie/ 从网页中解析正文，从正文中抽取结构化信息
kg/ 抽取三元組，存入neo4j数据库

代码执行顺序：

1.spider目录下执行：python spider_main.py
2.ie目录下执行：python extract-para.py
3.ie目录下执行：python extract-table.py
4.kg目录下执行：python build-triple-from-table.py
5.kg目录下执行：python insert_to_neo4j.py

第二步本项目可以不执行。

知识图谱效果图