diff --git a/README.md b/README.md index d2d9925..96fcaf5 100644 --- a/README.md +++ b/README.md @@ -2,7 +2,7 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。 -# 数据规模 +# 数据概况 本数据集,一共包括97,158条人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条,大致的情况具体如下: | 数据类型 | 数据规模 | 示例 | @@ -12,7 +12,7 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui | 大类关系数 | 102 | 父亲、母亲、朋友 | | 小类关系数 | 266 | 闺蜜、女好友、前妻 | -# 数据集关系类型的大小类 +# 数据关系类型 本数据集对人物关系进行了上下级分类,针对小类关系进一步归类整理成了若干个大类,选取小类数大于3的大类进行展示,如下表所示: | 关系大类 | 关系小类 | | :--- | :--- | @@ -40,7 +40,7 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui |偶像|喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像| |妹妹|义妹;二妹;三妹;妹妹| -# 数据集分布情况 +# 数据分布 目前,共涉及大类关系102个,小类关系266条,大类的top20样例如下: | 关系类型 | 关系规模 | 示例 | 关系类型 | 关系规模 | 示例 | | :--- | :---: | :---: |:--- | :---: | :---: | @@ -76,7 +76,19 @@ PersonGraphDataSet, nearly 10 thousand person2person relationship facts that bui 周扬,好友,朋友,佟丽娅 周扬,同学,同学,黄渤 """ - +# 数据应用 +拥有了刻画人与人之间的复杂关系数据集,可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究: +| 大类场景 | 小类场景 | 应用举例 | +| :--- | :---: | :---: | +| 信息检索 | 知识问答 | 姚明的老婆是谁? | +| 信息检索 | 多跳推理 | 姚明的女儿的爷爷是谁? | +| 信息检索 | 图谱可视化 | 将数据导入图数据库,进行图谱可视化展示 | +| 信息检索 | 未知关系推理 | 给定两个人物节点,进行人物之间的潜在关联路径发现 | +| 信息抽取 | 数据回标 | 根据结构化人物关系数据,利用远程监督方法进行回标 | +| 信息抽取 | 特征增强 | 根据结构化人物关系数据,将用户的关联关系作为某个用户的某个特征 | +| 信息推荐 | 人物推荐 | 根据关注某个人物,类推出与该人物相关的其他人物 | +| 用户画像 | 人物建模 | 利用某个人物的关联信息,对其进行特征表示和画像建模 | + # 关于作者 刘焕勇,中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我: