爬取百度百科中文页面,抽取三元组信息,构建中文知识图谱
Go to file
2018-05-21 20:36:44 +08:00
ie update 2018-05-21 20:36:44 +08:00
info add page extract 2018-04-02 22:01:08 +08:00
kg update 2018-05-21 20:36:44 +08:00
spider update 2018-04-20 11:42:21 +08:00
.gitignore init 2018-01-15 15:56:26 +08:00
dict.txt update 2018-04-20 11:42:21 +08:00
output.txt Update output.txt 2018-04-02 22:12:20 +08:00
README.md Update README.md 2018-05-21 20:21:49 +08:00

开源web知识图谱项目

  • 爬取百度百科中文页面
  • 抽取三元组
  • 构建中文知识图谱

环境

  • python 3.6
  • requests:网络请求
  • re:url正则匹配
  • bs4:网页解析
  • pickle:进度保存
  • threading:多线程
  • neo4j:知识图谱图数据库
  • pip install neo4j-driverneo4j python驱动

运行前指定几个路径:

spider/html_paser.py第38行为网页存储路径

        path='/data/ruben/data/webpages/'#custom diectory for webpages

ie/extract-para.py第11行为网页存储路径

        pages=glob.glob('/data/ruben/data/webpages/*')

ie/extract-table.py第37行为网页存储路径

        pages=glob.glob('/data/ruben/data/webpages/*')

代码目錄

  • spider/ 抓取原始网页
  • ie/ 从网页中解析正文,从正文中抽取结构化信息
  • kg/ 抽取三元組存入neo4j数据库

代码执行顺序:

python spider/spider_main.py
python ie/extract-para.py
python ie/extract-table.py
python kg/test_neo4j.py