修改配置文件

This commit is contained in:
lhy_in_blcu@126.com 2019-08-05 13:42:01 +08:00
parent 0d56fe901b
commit 73f3805a95

View File

@ -1,5 +1,5 @@
# AbstractKnowledgeGraph
AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,集中于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。
AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模50万支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。
# 项目介绍
抽象知识图谱,集中于对知识图谱和事件图谱中的实例事实进行抽象,包括实体抽象、动作抽象以及事件抽象,从而达到对人类真实认知的模拟。本项目目标有三个:
@ -42,13 +42,14 @@ c) 动作性事件的抽象
# 中文抽象图谱相关工作
目前中文抽象图谱的工作主要还集中于在实体层级的概念上下位知识库典型的有CN-Probase, BigCilin,BaikeSchema等四个
1) CN-probase
CN-probase是由复旦大学基于百科知识库构建起来的一个大规模实体型概念知识库该知识库对百度词条的义项进行挖掘并基于此进行上下位的挖掘。该项目目前不公开数据集只提供API的调用。
CN-probase是由复旦大学基于百科知识库构建起来的一个大规模实体型概念知识库该知识库对百度词条的义项进行挖掘并基于此进行上下位的挖掘。该项目目前不公开数据集只提供API的调用。地址http://kw.fudan.edu.cn/apis/cnprobase
2) HowNet
HowNet是董振东与董强两个老师研制出来的一款中文版的wordnet该知识库构建起了具有层级体系的几百个概念并基于此对超过6万个汉语词语进行了义项的刻画和组织。以HowNet为体系架构的基本组件在配合词汇挖掘方法可以形成一个较大规模的抽象知识库。Hownet与其他几个不同该知识库还关注动词的抽象层级。该项目目前提供源文件的下载已开源关于这个的数据资源可以参考我之前的一个工作即句子相似度计算项目地址https://github.com/liuhuanyong/SentenceSimilarity
3) BigCilin
大词林是由哈工大秦兵老师团队基于搜索引擎结果、百科类知识以及结合同义词词林进行概念上下位挖掘的所形成的一个抽象知识库。该知识库关注实体性的知识在动词性的知识上还暂未涉及对于大词林的技术细节以及使用样例可以搜索大词林查阅其相关文档。该项目目前仅提供demo展示无法开源调用。
大词林是由哈工大秦兵老师团队基于搜索引擎结果、百科类知识以及结合同义词词林进行概念上下位挖掘的所形成的一个抽象知识库。该知识库关注实体性的知识在动词性的知识上还暂未涉及对于大词林的技术细节以及使用样例可以搜索大词林查阅其相关文档。该项目目前仅提供demo展示无法开源调用。地址https://bigcilin.com
![image](https://github.com/liuhuanyong/AbstractKnowledgeGraph/blob/master/img/extract_cilin.png)
4) BaikeSchema
基于众包方式形成的百科知识库中包含着大量的社会常识知识这种知识以Taxonomy的方式进行组织。百科类知识库包括以百度百科、互动百科以及维基百科为首的三大百科在知识抽象上包括两个方面一个是百科分类体系树另一个是百科词条页面中的标签以及义项体系集成这两个百科的知识体系可以得到准确率适当的层级效果。不过在构建过程中不同的百科中有不同的百科分类体系往往需要进行对应以及融合。该项目数据分布在百科平台上需要整理形成使用。关于这方面的工作可以参考我之前做的一个工作
@ -59,12 +60,14 @@ HowNet是董振东与董强两个老师研制出来的一款中文版的wordnet
# 抽象图谱构建技术路线
图谱的构建最忌讳从零开始因此可以踩在巨人的肩膀上进行处理。利用howet中的概念层级体系为基础同时对百科类知识体系进行融合并使用同义词词林等知识库进行拓展和泛化并在知识更新上基于百科概念事实以及模式挖掘提升抽象图谱的数量和质量。下图展示了该技术路线图。
![image](https://github.com/liuhuanyong/AbstractKnowledgeGraph/blob/master/img/schema.png)
# 目前接口效果
目前知识的抽象,本项目从词性的角度出发(词性与知识的类型比较强相关)进行处理,以下分别展示了名词性、状态性、动作性的抽象路径初步结果。
目前知识的抽象,本项目从词性的角度出发(词性与知识的类型比较强相关)进行处理,以下分别展示了名词性、状态性、动作性的抽象路径初步结果,文件说明如下:
1dict/concept_total.txt词汇与概念文件存储词语的概念义项。
2dict/hiearchy.txt,基础概念体系文件,存储基础概念体系。
3search_concept.py,概念抽象文件python3.6环境,直接运行即可。效果如下:
1名词抽象路径
@ -86,7 +89,6 @@ HowNet是董振东与董强两个老师研制出来的一款中文版的wordnet
If any question about the project or me ,see https://liuhuanyong.github.io/
如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍https://liuhuanyong.github.io
2、我的csdn博客https://blog.csdn.net/lhy2014