nlp_xiaojiang/ChatBot/chatbot_search/chatbot_bertwhite
2021-09-17 18:45:31 +08:00
..
__init__.py add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00
bertWhiteConf.py add Layer of cosine for chatbot-tfserving 2021-09-17 18:45:31 +08:00
bertWhiteTools.py add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00
bertWhiteTrain.py add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00
chicken_and_gossip.txt add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00
indexAnnoy.py add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00
indexFaiss.py add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00
mmr.py add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00
README.md add encode-vecotr with faiss and annoy 2021-06-10 18:17:15 +08:00

chatbot_bertwhite

解释说明

  • 代码说明:
      1. bertWhiteConf.py 超参数配置, 地址、bert-white、索引工具等的超参数
      1. bertWhiteTools.py 小工具, 主要是一些文档读写功能函数
      1. bertWhiteTrain.py 主模块, 类似bert预训练模型编码
      1. indexAnnoy.py annoy索引
      1. indexFaiss.py faiss索引
      1. mmr.py 最大边界相关法, 保证返回多样性

备注说明:

    1. 如果FQA标准问答对很少, 比如少于1w条数据, 建议不要用bert-white, 其与领域数据相关, 数据量太小会极大降低泛化性;
    1. 可以考虑small、tiny类小模型, 如果要加速推理;
    1. annoy安装于linux必须有c++环境, 如gcc-c++, g++等, 只有gcc的话可以用faiss-cpu
    1. 增量更新: 建议问题对增量更新/faiss-annoy索引全量更新

模型文件

    1. 模型文件采用的是 ""