DeepIE: Deep Learning for Information Extraction
Go to file
2020-05-27 17:52:18 +08:00
config duie2020 2020-04-19 20:40:32 +08:00
data 基本框架构建 2020-01-07 18:27:52 +08:00
docs add paper resource 2020-05-27 17:50:18 +08:00
layers add ner & crf 2020-05-20 20:45:09 +08:00
models add ner & crf 2020-05-20 20:45:09 +08:00
run fixed spo 2020-05-20 19:46:26 +08:00
utils add lstm crf 2020-05-01 00:57:35 +08:00
.gitignore fixed spo 2020-05-20 19:48:00 +08:00
README.md add paper resource 2020-05-27 17:52:18 +08:00
requirements.txt 提交spo的transformer框架 2020-03-11 21:40:31 +08:00

DeepIE: Deep Learning for Information Extraction

DeepIE 基于深度学习的信息抽取技术预计2020年8月31日前全部更新完毕

TOP

Papers

Codes

1. 实体抽取

  • MSRA-NER
方法 f p r
char+ lstm-crf 86.18% 88.43% 83.10%
char-bigram + lstm-crf 91.80% 92.60% 90.34%
char-bigram + adTransformer-crf 92.98% 93.25% 92.72%
char-bigram + lexion-augment + lstm-crf 93.33% 94.26% 92.43%
char-bigram-BERT + lstm-crf 94.71% 95.14% 94.27%
char-bigram-BERT + lexion-augment + lstm-crf 95.26% 95.90% 94.63%
  • CCKS2019-医疗实体抽取
方法 f p r
char-bigram + lstm-crf 81.76% 82.91% 80.6
+ domain transferfrom ccks2018 to 2019 82.54% 83.43% 81.81%
char-bigram + adTransformer-crf 82.83% 82.19% 83.49%
char-bigram + lexion-augment + lstm-crf 82.76% 82.79% 82.72%
BERT-finetune+crf 83.49% 84.11% 82.89%
roBERTa-finetune+crf 83.66% 83.67% 83.66%
char-bigram-BERT + lstm-crf 83.37% 83.51% 83.22%
char-bigram-BERT + lexion-augment + lstm-crf 84.15% 84.29% 84.01%
  • CCKS2020-医疗实体抽取

(注测试集与ccks2019一致去除ccks2020训练集中已经在2019测试集中的样本下列指标未做规则处理和模型融合)

方法 f p r
char-bigram + lstm-crf 82.68% 83.14% 82.22%
char-bigram + lexion-augment + lstm-crf 83.12% 83.10% 83.14%
char-bigram-BERT + lstm-crf 83.12% 83.04% 83.21%
char-bigram-BERT-RoBerta_wwm + lstm-crf 83.66% 83.76% 83.56%
char-bigram-BERT-XLNet + lstm-crf 84.12% 83.88% 84.36%
char-bigram-BERT + lexion-augment + lstm-crf 84.50% 84.32% 84.67%
  • CCKS2020-面向试验鉴定的命名实体识别任务TODO

2. 实体关系联合抽取

具体使用说明

  • 2019语言与智能技术竞赛关系抽取任务
方法 f(dev) p(dev) r(dev)
multi head selection 76.36 79.24 73.69
ETL-BIES 77.07% 77.13% 77.06%
ETL-Span 78.94% 80.11% 77.8%
ETL-Span + word2vec 79.99% 80.62% 79.38%
ETL-Span + word2vec + adversarial training 80.38% 79.95% 80.82%
ETL-Span + BERT 81.88% 82.35% 81.42%
  • 2020语言与智能技术竞赛关系抽取任务
方法 f(dev) p(dev) r(dev)
ETL-Span + BERT 74.58 74.44 74.71

3. 属性抽取

  • 领域数据集:瑞金医院糖尿病信息抽取数据
# 药物-属性
['药品-用药频率','药品-持续时间','药品-用药剂量','药品-用药方法','药品-不良反应']
# 疾病-属性
['疾病-检查方法','疾病-临床表现','疾病-非药治疗','疾病-药品名称','疾病-部位']
主体 方法 f p r
疾病 lstm+ multi-label pointer network 76.55 74.36 78.86
疾病 bert + multi-label pointer network 77.59 77.45 77.74
药物 lstm+ multi-label pointer network 81.12 79.15 83.19

4. 实体链接/标准化

5.事件抽取

  • CCKS2020-医疗事件抽取

  • CCKS2020面向金融领域的篇章级事件主体抽取

  • CCKS2020面向金融领域的篇章级事件要素抽取

6.信息抽取中的低资源解决方案

TODO-list

  • 信息抽取领域的数据资源汇总:

    • 医疗
    • 金融
    • 电商
    • 法律
  • 信息抽取相关竞赛汇总:

    • 百度-2020语言与智能技术竞赛关系抽取任务
    • 百度-2020语言与智能技术竞赛事件抽取任务
    • 百度-2019语言与智能技术竞赛信息抽取
    • CCKS 2019 医疗命名实体识别
    • CHIP 2019 临床术语标准化任务
    • CCKS 2019 人物关系抽取
    • CCKS 2019 公众公司公告信息抽取
    • CCKS 2019 面向金融领域的事件主体抽取
  • 摘要抽取

  • 前沿技术在信息抽取中的应用

Reference