一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算

Go to file

joe 1b395d0ead 添加BQ数据集论文		2019-07-01 10:27:16 +08:00
data	修改数据集	2019-07-01 10:22:40 +08:00
__init__.py	添加代码	2019-01-29 18:31:51 +08:00
.gitignore	序列长度改为None	2019-04-19 10:56:12 +08:00
args.py	优化句向量生成速度	2019-07-01 10:07:54 +08:00
bert_vec.py	添加bert句向量持久化代码	2019-05-27 13:53:07 +08:00
extract_feature.py	优化句向量生成速度	2019-07-01 10:07:54 +08:00
graph.py	优化句向量生成速度	2019-07-01 10:07:54 +08:00
LICENSE	Create LICENSE	2019-03-19 11:26:40 +08:00
modeling.py	添加代码	2019-01-29 18:31:51 +08:00
optimization.py	添加代码	2019-01-29 18:31:51 +08:00
README.md	添加BQ数据集论文	2019-07-01 10:27:16 +08:00
requirements.txt	添加代码	2019-01-29 18:31:51 +08:00
similarity.py	修改配置参数	2019-01-30 11:39:49 +08:00
The BQ Corpus A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification.pdf	添加BQ数据集论文	2019-07-01 10:27:16 +08:00
tokenization.py	添加代码	2019-01-29 18:31:51 +08:00

bert-utils

本文基于Google开源的BERT代码进行了进一步的简化，方便生成句向量与做文本分类

***** New July 1st, 2019 *****

修改句向量graph文件的生成方式，提升句向量启动速度。不再每次以临时文件的方式生成，首次执行extract_feature.py时会创建tmp/result/graph，再次执行时直接读取该文件，如果args.py文件内容有修改，需要删除tmp/result/graph文件
修复同时启动两个进程生成句向量时代码报错的bug
修改文本匹配数据集为QA_corpus，该份数据相比于蚂蚁金服的数据更有权威性

1、下载BERT中文模型

2、把下载好的模型添加到当前目录下

3、句向量生成

生成句向量不需要做fine tune，使用预先训练好的模型即可，可参考extract_feature.py的main方法，注意参数必须是一个list。

首次生成句向量时需要加载graph，并在output_dir路径下生成一个新的graph文件，因此速度比较慢，再次调用速度会很快

from bert.extrac_feature import BertVector
bv = BertVector()
bv.encode(['今天天气不错'])

4、文本分类

文本分类需要做fine tune，首先把数据准备好存放在data目录下，训练集的名字必须为train.csv，验证集的名字必须为dev.csv，测试集的名字必须为test.csv，必须先调用set_mode方法，可参考similarity.py的main方法，

训练：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.TRAIN)
bs.train()

验证：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.EVAL)
bs.eval()

测试：

from similarity import BertSim
import tensorflow as tf

bs = BertSim()
bs.set_mode(tf.estimator.ModeKeys.PREDICT)
bs.test()

5、DEMO中自带了QA_corpus数据集，这里给出地址，该份数据的生成方式请参阅附件中的论文The BQ Corpus.pdf