爬取百度百科中文页面,抽取三元组信息,构建中文知识图谱
Go to file
2019-06-10 10:11:05 +08:00
ie fix issue 8 2019-04-02 12:59:36 +08:00
kg update 2018-09-07 19:45:54 +08:00
spider 修改item的解析方式,解决一个词条多个页面的问题 2019-06-10 10:11:05 +08:00
.gitignore 优化百科词条的提取方式 2019-06-05 11:46:01 +08:00
README.md Merge branch 'master' of https://github.com/lixiang0/WEB_KG 2019-05-12 19:01:18 +08:00

Tips

  • 如果是项目问题请提issue。
  • 如果涉及到不方便公开的,请发邮件。
  • ChatBot请访问链接

开源web知识图谱项目

环境

  • python 3.6
  • requests:网络请求
  • re:url正则匹配
  • bs4:网页解析
  • pickle:进度保存
  • threading:多线程
  • neo4j:知识图谱图数据库,安装可以参考链接
  • pip install neo4j-driverneo4j python驱动

代码目錄

  • spider/ 抓取原始网页
  • ie/ 从网页中解析正文,从正文中抽取结构化信息
  • kg/ 抽取三元組存入neo4j数据库

代码执行顺序:

  • 1.spider目录下执行python spider_main.py
  • 2.ie目录下执行python extract-para.py
  • 3.ie目录下执行python extract-table.py
  • 4.kg目录下执行python build-triple-from-table.py
  • 5.kg目录下执行python insert_to_neo4j.py

第二步本项目可以不执行。

知识图谱效果图