Update README.md
This commit is contained in:
parent
bd56147b1e
commit
e806fcf4a7
43
README.md
43
README.md
@ -1,19 +1,44 @@
|
||||
# PersonGraphDataSet
|
||||
PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。
|
||||
|
||||
人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。
|
||||
|
||||
# 数据规模
|
||||
本数据集,一共包括97,158条人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条,大致的情况具体如下:
|
||||
|
||||
| 数据类型 | 数据规模 | 示例 |
|
||||
| :--- | :---: | :---: |
|
||||
| :--- | :---: | --- |
|
||||
| 关系数目 | 97,158 | 父亲、母亲、女友 |
|
||||
| 人物数目 | 71,243 | 姚明、易建联、乔布斯 |
|
||||
| 大类关系数 | 102 | 父亲、母亲、朋友 |
|
||||
| 小类关系数 | 266 | 闺蜜、女好友、前妻 |
|
||||
|
||||
# 数据集关系类型的大小类
|
||||
|
||||
本数据集对人物关系进行了上下级分类,针对小类关系进一步归类整理成了若干个大类,选取小类数大于3的大类进行展示,如下表所示:
|
||||
| 关系大类 | 关系小类 |
|
||||
| :--- | :---: |
|
||||
|敌人|死敌;传闻不和;竞争对手;死对头;敌人;对手;骂战|
|
||||
|父亲|父亲;其父;继父;生父;干爹;义父;养父|
|
||||
|学生|学生;爱徒;徒孙|
|
||||
|合作|同伙;合作人;相声搭档;合作演员;合作;影视搭档;戏曲搭档;搭档;同时期队友;前队友;队友;国家队队友;女双搭档;主持搭档;合作伙伴;盟友;戏曲合作;混双搭档;合伙人|
|
||||
|情人|初恋;配偶;情侣;情人;伴侣;情敌;旧爱;情夫;爱人;前任;恋人;心上人;分手|
|
||||
|朋友|圈中好友;同伴;密友;友人;伙伴;好友;圈内好友;红颜知己;挚友;女好友|
|
||||
|丈夫|未婚夫;第二任丈夫;现任丈夫;前夫;第一任丈夫;丈夫|
|
||||
|祖先|祖先;鼻祖;始祖;先祖|
|
||||
|姐姐|大姐;二姐;姐姐|
|
||||
|妻子|妻妾;第二任妻子;现任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子|
|
||||
|同门|同门师兄;校友;师妹;师弟;师兄弟;师姐|
|
||||
|弟弟|义弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟|
|
||||
|女儿|女儿;继女;大女儿;养女;次女;干女儿;义女;三女;长女;二女儿;小女儿|
|
||||
|儿子|四子;三子;大儿子;干儿子;儿子;次子;五子;继子;义子;小儿子;二儿子;养子;幼子;长子|
|
||||
|哥哥|三哥;哥哥;长兄;二哥;四哥;大哥;五哥|
|
||||
|家人|亲戚;家属;亲属;近亲;亲人;孩子;家人;长辈|
|
||||
|老师|启蒙教练;师祖;师;师叔;师承;老师;现任教练;教练;班主任;伯乐|
|
||||
|母亲|义母;生母;养母;继母;干妈;母亲|
|
||||
|下属|下级;下属;属下;部下;君臣|
|
||||
|同学|同班同学;同学;同门|
|
||||
|继任者|继任者;后裔;继承人;后人;后代;继任|
|
||||
|偶像|喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像|
|
||||
|妹妹|义妹;二妹;三妹;妹妹|
|
||||
|
||||
# 数据集分布情况
|
||||
目前,共涉及大类关系102个,小类关系266条,大类的top20样例如下:
|
||||
@ -40,10 +65,6 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui
|
||||
| 子女 | 977 | <朱寿,子女,子女,朱厚熜> |
|
||||
| 祖父 | 962 | <周璟馨,祖父,祖父,周海婴> |
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
# 数据样例
|
||||
1、数据格式为:<人物1,小类关系,大类关系,人物2>,为四元组形式,以满足不同的数据需求。
|
||||
2、注意:为了对存在歧义的实体,采用了实体[实体简短描述]的方式进行区分处理。
|
||||
@ -68,4 +89,10 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui
|
||||
|
||||
# 关于作者
|
||||
|
||||
|
||||
刘焕勇,中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
|
||||
1、我的github项目介绍:https://liuhuanyong.github.io
|
||||
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
|
||||
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
|
||||
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
|
||||
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
|
||||
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn
|
||||
|
Loading…
Reference in New Issue
Block a user