Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
Go to file
2018-07-25 15:55:23 +08:00
build 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00
image 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00
VIS/dist 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00
graph_show.html 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00
GraphShow.py 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00
keywords_textrank.py 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00
README.md Update README.md 2018-07-25 15:55:23 +08:00
sentence_parser.py 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00
text_grapher.py 创建文本内容图谱化项目 2018-07-25 15:31:40 +08:00

TextGrapher

Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档将文档进行关键信息提取并进行结构化并最终组织成图谱组织形式形成对文章语义信息的图谱化展示。

项目介绍

如何用图谱和结构化的方式,即以简洁的方式对输入的文本内容进行最佳的语义表示是个难题。 本项目将对这一问题进行尝试,采用的方法为:输入一篇文档,将文档进行关键信息提取,并进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。  

使用方式

from text_grapher import *
content = '你要分析的文本'
handler = CrimeMining()
handler.main(content)

结果保存在graph.html文件当中。  

事件举例

) 中兴事件  image

  1. 魏则西事件  image

  2. 雷洋事件  image

  3. 同学杀人事件  image

总结

1)如何用图谱和结构化的方式,即以简洁的方式对输入的文本内容进行最佳的语义表示是个难题。
2)本项目采用了高频词,关键词,命名实体识别,主谓宾短语识别等抽取方式,并尝试将三类信息进行图谱组织表示,这种表示方式是一种尝试。
命名实体识别以及关键信息抽取受限于NLP的性能在算法和方式上还存在多处不足。   4)将尝试其他更好的文本内容表示方法。   

Question?

send mail to lhy_in_blcu@126.com