Update README.md

This commit is contained in:
liuhuanyong 2021-01-26 19:41:56 +08:00 committed by GitHub
parent bd56147b1e
commit e806fcf4a7
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

View File

@ -1,19 +1,44 @@
# PersonGraphDataSet
PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。
PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。
人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。
# 数据规模
本数据集一共包括97,158条人物关系数据涉及人物71,243个大类关系102个小类关系266条大致的情况具体如下
| 数据类型 | 数据规模 | 示例 |
| :--- | :---: | :---: |
| :--- | :---: | --- |
| 关系数目 | 97,158 | 父亲、母亲、女友 |
| 人物数目 | 71,243 | 姚明、易建联、乔布斯 |
| 大类关系数 | 102 | 父亲、母亲、朋友 |
| 小类关系数 | 266 | 闺蜜、女好友、前妻 |
# 数据集关系类型的大小类
本数据集对人物关系进行了上下级分类针对小类关系进一步归类整理成了若干个大类选取小类数大于3的大类进行展示如下表所示
| 关系大类 | 关系小类 |
| :--- | :---: |
|敌人|死敌;传闻不和;竞争对手;死对头;敌人;对手;骂战|
|父亲|父亲;其父;继父;生父;干爹;义父;养父|
|学生|学生;爱徒;徒孙|
|合作|同伙;合作人;相声搭档;合作演员;合作;影视搭档;戏曲搭档;搭档;同时期队友;前队友;队友;国家队队友;女双搭档;主持搭档;合作伙伴;盟友;戏曲合作;混双搭档;合伙人|
|情人|初恋;配偶;情侣;情人;伴侣;情敌;旧爱;情夫;爱人;前任;恋人;心上人;分手|
|朋友|圈中好友;同伴;密友;友人;伙伴;好友;圈内好友;红颜知己;挚友;女好友|
|丈夫|未婚夫;第二任丈夫;现任丈夫;前夫;第一任丈夫;丈夫|
|祖先|祖先;鼻祖;始祖;先祖|
|姐姐|大姐;二姐;姐姐|
|妻子|妻妾;第二任妻子;现任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子|
|同门|同门师兄;校友;师妹;师弟;师兄弟;师姐|
|弟弟|义弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟|
|女儿|女儿;继女;大女儿;养女;次女;干女儿;义女;三女;长女;二女儿;小女儿|
|儿子|四子;三子;大儿子;干儿子;儿子;次子;五子;继子;义子;小儿子;二儿子;养子;幼子;长子|
|哥哥|三哥;哥哥;长兄;二哥;四哥;大哥;五哥|
|家人|亲戚;家属;亲属;近亲;亲人;孩子;家人;长辈|
|老师|启蒙教练;师祖;师;师叔;师承;老师;现任教练;教练;班主任;伯乐|
|母亲|义母;生母;养母;继母;干妈;母亲|
|下属|下级;下属;属下;部下;君臣|
|同学|同班同学;同学;同门|
|继任者|继任者;后裔;继承人;后人;后代;继任|
|偶像|喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像|
|妹妹|义妹;二妹;三妹;妹妹|
# 数据集分布情况
目前共涉及大类关系102个小类关系266条大类的top20样例如下
@ -40,10 +65,6 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui
| 子女 | 977 | <朱寿,子女,子女,朱厚熜> |
| 祖父 | 962 | <周璟馨,祖父,祖父,周海婴> |
# 数据样例
1、数据格式为<人物1,小类关系,大类关系,人物2>,为四元组形式,以满足不同的数据需求。
2、注意为了对存在歧义的实体采用了实体[实体简短描述]的方式进行区分处理。
@ -68,4 +89,10 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui
# 关于作者
刘焕勇,中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍https://liuhuanyong.github.io
2、我的csdn技术博客https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇中国科学院软件研究所lhy_in_blcu@126.com.
4、我的共享知识库项目刘焕勇数据地平线http://www.openkg.cn/organization/datahorizon.
5、我的工业项目刘焕勇数据地平线大规模实时事理学习系统https://xueji.datahorizon.cn.
6、我的工业项目刘焕勇数据地平线面向事件和语义的自然语言处理工具箱https://nlp.datahorizon.cn