PersonGraphDataSet, nearly 10 thousand person2person relationship facts。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。
Go to file
2021-01-26 19:41:56 +08:00
.DS_Store 创建人物关系数据库项目 2021-01-26 18:55:05 +08:00
big_rel_distribution.txt 创建人物关系数据库项目 2021-01-26 18:55:05 +08:00
person_rel_kg.data 创建人物关系数据库项目 2021-01-26 18:55:05 +08:00
README.md Update README.md 2021-01-26 19:41:56 +08:00
small_rel_distribution.txt 创建人物关系数据库项目 2021-01-26 18:55:05 +08:00

PersonGraphDataSet

PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。
人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。

数据规模

本数据集一共包括97,158条人物关系数据涉及人物71,243个大类关系102个小类关系266条大致的情况具体如下

数据类型 数据规模 示例
关系数目 97,158 父亲、母亲、女友
人物数目 71,243 姚明、易建联、乔布斯
大类关系数 102 父亲、母亲、朋友
小类关系数 266 闺蜜、女好友、前妻

数据集关系类型的大小类

本数据集对人物关系进行了上下级分类针对小类关系进一步归类整理成了若干个大类选取小类数大于3的大类进行展示如下表所示

关系大类 关系小类
敌人 死敌;传闻不和;竞争对手;死对头;敌人;对手;骂战
父亲 父亲;其父;继父;生父;干爹;义父;养父
学生 学生;爱徒;徒孙
合作 同伙;合作人;相声搭档;合作演员;合作;影视搭档;戏曲搭档;搭档;同时期队友;前队友;队友;国家队队友;女双搭档;主持搭档;合作伙伴;盟友;戏曲合作;混双搭档;合伙人
情人 初恋;配偶;情侣;情人;伴侣;情敌;旧爱;情夫;爱人;前任;恋人;心上人;分手
朋友 圈中好友;同伴;密友;友人;伙伴;好友;圈内好友;红颜知己;挚友;女好友
丈夫 未婚夫;第二任丈夫;现任丈夫;前夫;第一任丈夫;丈夫
祖先 祖先;鼻祖;始祖;先祖
姐姐 大姐;二姐;姐姐
妻子 妻妾;第二任妻子;现任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子
同门 同门师兄;校友;师妹;师弟;师兄弟;师姐
弟弟 义弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟
女儿 女儿;继女;大女儿;养女;次女;干女儿;义女;三女;长女;二女儿;小女儿
儿子 四子;三子;大儿子;干儿子;儿子;次子;五子;继子;义子;小儿子;二儿子;养子;幼子;长子
哥哥 三哥;哥哥;长兄;二哥;四哥;大哥;五哥
家人 亲戚;家属;亲属;近亲;亲人;孩子;家人;长辈
老师 启蒙教练;师祖;师;师叔;师承;老师;现任教练;教练;班主任;伯乐
母亲 义母;生母;养母;继母;干妈;母亲
下属 下级;下属;属下;部下;君臣
同学 同班同学;同学;同门
继任者 继任者;后裔;继承人;后人;后代;继任
偶像 喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像
妹妹 义妹;二妹;三妹;妹妹

数据集分布情况

目前共涉及大类关系102个小类关系266条大类的top20样例如下

关系类型 关系规模 示例
合作 14,048 <左永邦,合作演员,合作,王珞丹>
朋友 13,632 <祖孙登,好友,朋友,张正见>
父亲 6,857 <左太北,父亲,父亲,左权>
丈夫 5,348 <左蓝,未婚夫,丈夫,余则成>
情人 4,880 <庄睿,爱人,情人,秦萱冰>
老师 4,727 <左欣然,老师,老师,许蕙兰>
儿子 4,631 <左武王,儿子,儿子,安祯侯>
妻子 4,491 <祖峰,现任妻子,妻子,刘天池>
母亲 3,832 <卓玥,母亲,母亲,邓榕>
女儿 2,583 <宗庆后,女儿,女儿,宗馥莉>
哥哥 2,379 <周星霞,哥哥,哥哥,周星驰>
学生 2,017 <左宏元,学生,学生,邓丽君>
敌人 1,948 <左武王,死敌,敌人,诸葛正我>
弟弟 1,880 <祝龙,弟弟,弟弟,祝彪>
同学 1,695 <祖峰,同学,同学,黄晓明>
女友 1,427 <邹世龙,前女友,女友,梅艳芳>
妹妹 1,384 <祝齐英,妹妹,妹妹,祝英台>
姐姐 1,149 <卓龙,姐姐,姐姐,卓凤>
子女 977 <朱寿,子女,子女,朱厚熜>
祖父 962 <周璟馨,祖父,祖父,周海婴>

数据样例

1、数据格式为<人物1,小类关系,大类关系,人物2>,为四元组形式,以满足不同的数据需求。
2、注意为了对存在歧义的实体采用了实体[实体简短描述]的方式进行区分处理。 3、样例数据

"""
    周洋,队友,合作,孙琳琳
    周洋,队友,合作,王濛
    周洋,队友,合作,张会
    周洋,启蒙教练,老师,崔顺子
    周洋,老师,老师,李琰
    周扬[中国内地女演员],搭档,合作,叶童
    周扬[中国内地女演员],好友,朋友,蒋欣
    周扬[中国内地女演员],同学,同学,黄渤
    周扬,搭档,合作,高圆圆
    周扬,搭档,合作,叶童
    周扬,好友,朋友,蒋欣
    周扬,好友,朋友,霍思燕
    周扬,好友,朋友,佟丽娅
    周扬,同学,同学,黄渤
"""

关于作者

刘焕勇,中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍https://liuhuanyong.github.io
2、我的csdn技术博客https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇中国科学院软件研究所lhy_in_blcu@126.com.
4、我的共享知识库项目刘焕勇数据地平线http://www.openkg.cn/organization/datahorizon.
5、我的工业项目刘焕勇数据地平线大规模实时事理学习系统https://xueji.datahorizon.cn.
6、我的工业项目刘焕勇数据地平线面向事件和语义的自然语言处理工具箱https://nlp.datahorizon.cn