From e806fcf4a7dbdfedd1011c3768c62cdfed564e89 Mon Sep 17 00:00:00 2001 From: liuhuanyong Date: Tue, 26 Jan 2021 19:41:56 +0800 Subject: [PATCH] Update README.md --- README.md | 45 ++++++++++++++++++++++++++++++++++++--------- 1 file changed, 36 insertions(+), 9 deletions(-) diff --git a/README.md b/README.md index 72b8ff0..15947e3 100644 --- a/README.md +++ b/README.md @@ -1,19 +1,44 @@ # PersonGraphDataSet -PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 - +PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 +人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。 # 数据规模 本数据集,一共包括97,158条人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条,大致的情况具体如下: | 数据类型 | 数据规模 | 示例 | -| :--- | :---: | :---: | +| :--- | :---: | --- | | 关系数目 | 97,158 | 父亲、母亲、女友 | | 人物数目 | 71,243 | 姚明、易建联、乔布斯 | | 大类关系数 | 102 | 父亲、母亲、朋友 | | 小类关系数 | 266 | 闺蜜、女好友、前妻 | # 数据集关系类型的大小类 - +本数据集对人物关系进行了上下级分类,针对小类关系进一步归类整理成了若干个大类,选取小类数大于3的大类进行展示,如下表所示: +| 关系大类 | 关系小类 | +| :--- | :---: | +|敌人|死敌;传闻不和;竞争对手;死对头;敌人;对手;骂战| +|父亲|父亲;其父;继父;生父;干爹;义父;养父| +|学生|学生;爱徒;徒孙| +|合作|同伙;合作人;相声搭档;合作演员;合作;影视搭档;戏曲搭档;搭档;同时期队友;前队友;队友;国家队队友;女双搭档;主持搭档;合作伙伴;盟友;戏曲合作;混双搭档;合伙人| +|情人|初恋;配偶;情侣;情人;伴侣;情敌;旧爱;情夫;爱人;前任;恋人;心上人;分手| +|朋友|圈中好友;同伴;密友;友人;伙伴;好友;圈内好友;红颜知己;挚友;女好友| +|丈夫|未婚夫;第二任丈夫;现任丈夫;前夫;第一任丈夫;丈夫| +|祖先|祖先;鼻祖;始祖;先祖| +|姐姐|大姐;二姐;姐姐| +|妻子|妻妾;第二任妻子;现任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子| +|同门|同门师兄;校友;师妹;师弟;师兄弟;师姐| +|弟弟|义弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟| +|女儿|女儿;继女;大女儿;养女;次女;干女儿;义女;三女;长女;二女儿;小女儿| +|儿子|四子;三子;大儿子;干儿子;儿子;次子;五子;继子;义子;小儿子;二儿子;养子;幼子;长子| +|哥哥|三哥;哥哥;长兄;二哥;四哥;大哥;五哥| +|家人|亲戚;家属;亲属;近亲;亲人;孩子;家人;长辈| +|老师|启蒙教练;师祖;师;师叔;师承;老师;现任教练;教练;班主任;伯乐| +|母亲|义母;生母;养母;继母;干妈;母亲| +|下属|下级;下属;属下;部下;君臣| +|同学|同班同学;同学;同门| +|继任者|继任者;后裔;继承人;后人;后代;继任| +|偶像|喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像| +|妹妹|义妹;二妹;三妹;妹妹| # 数据集分布情况 目前,共涉及大类关系102个,小类关系266条,大类的top20样例如下: @@ -40,10 +65,6 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui | 子女 | 977 | <朱寿,子女,子女,朱厚熜> | | 祖父 | 962 | <周璟馨,祖父,祖父,周海婴> | - - - - # 数据样例 1、数据格式为:<人物1,小类关系,大类关系,人物2>,为四元组形式,以满足不同的数据需求。 2、注意:为了对存在歧义的实体,采用了实体[实体简短描述]的方式进行区分处理。 @@ -68,4 +89,10 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui # 关于作者 - +刘焕勇,中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我: +1、我的github项目介绍:https://liuhuanyong.github.io +2、我的csdn技术博客:https://blog.csdn.net/lhy2014 +3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com. +4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon. +5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn. +6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn