Keras-TextClassification/README.md
2019-08-14 22:30:32 +08:00

5.3 KiB
Raw Blame History

Keras-TextClassification

keras_textclassification代码主体,未完待续...

- Bert-fineture
- FastText
- TextCNN
- charCNN
- TextRNN
- TextRCNN
- TextDCNN
- TextDPCNN
- TextVDCNN
- TextCRNN
- DeepMoji
- SelfAttention
- HAN
- CapsuleNet
- Transformer-encode

run(运行, 以FastText为例)

- 1. 进入keras_textclassification/m01_FastText目录
- 2. 训练: 运行 train.py,   例如: python train.py
- 3. 预测: 运行 predict.py, 例如: python predict.py
- 说明: 默认不带pre train的random embedding训练和验证语料只有100条完整语料移步下面data查看下载

run(test/sample实例)

- bert,word2vec,random样例在test/目录下, 注意word2vec(char or word), random-word,  bert(chinese_L-12_H-768_A-12)未全部加载,需要下载
- multi_class/目录下以text-cnn为例进行多标签分类实例转化为multi-onehot标签类别分类则取一定阀值的类
- predict_bert_text_cnn.py
- tet_char_bert_embedding.py
- tet_char_random_embedding.py
- tet_char_word2vec_embedding.py
- tet_word_random_embedding.py
- tet_word_word2vec_embedding.py

keras_textclassification/data

- 数据下载
  ** github项目中只是上传部分数据需要的前往链接: https://pan.baidu.com/s/1I3vydhmFEQ9nuPG2fDou8Q 提取码: rket
- baidu_qa_2019百度qa问答语料只取title作为分类样本17个类有一个是空'',已经压缩上传)
   - baike_qa_train.csv
   - baike_qa_valid.csv
-byte_multi_news今日头条2018新闻标题多标签语料1070个标签fate233爬取, 地址为: [byte_multi_news](https://github.com/fate233/toutiao-multilevel-text-classfication-dataset)
   -labels.csv
   -train.csv
   -valid.csv
- embeddings
   - chinese_L-12_H-768_A-12/(取谷歌预训练好点的模型,已经压缩上传)
   - term_char.txt(已经上传, 项目中已全, wiki字典, 还可以用新华字典什么的)
   - term_word.txt(未上传, 项目中只有部分, 可参考词向量的)
   - w2v_model_merge_short.vec(未上传, 项目中只有部分, 词向量, 可以用自己的)
   - w2v_model_wiki_char.vec(已上传百度网盘, 项目中只有部分, 自己训练的维基百科字向量, 可以用自己的)
- model
   - 预训练模型存放地址

项目说明

    1. 构建了base基类(网络(graph)、向量嵌入(词、字、句子embedding)),后边的具体模型继承它们,代码简单
    1. conf存放项目数据、模型的地址, data存放数据和语料, etl为数据预处理模块,

模型与论文paper题与地址

参考/感谢