Synonyms/CHANGELOG.md
2021-01-03 11:42:10 +08:00

89 lines
1.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 3.16
- Use github vector pkg download link
# 3.15
- Fix jieba exports 冲突,改为只暴露 keywords, seg 接口
- 修正 vocab.txt 里的错误
# 3.13
- 减少依赖
- export jieba as synonyms.jieba
# 3.12
- 使用更大词向量42W+ 词汇表
- 优化下载速度
# 3.11
- 支持定义查询词汇数量,默认 10 个词
# 3.10
- 计算编辑距离时去停用词
# 3.9
- fix bug
# 3.8
- 获得一个分词后句子的向量,向量以 BoW 方式组成
```
sentence: 句子是分词后通过空格联合起来
ignore: 是否忽略OOVFalse时随机生成一个向量
```
# 3.7
- change import path of utils in word2vec.py to local path
- expose vector fn
# 3.6
- Fix Bug: compare 保证交换两个句子后分数一致 [#60](https://github.com/huyingxi/Synonyms/issues/60)
# 3.5
- 根据实际情况,降低向量距离对近似度分数的影响
# 3.3
- 增加分词接口
- 优化分词器初始化加载字典
- 使用 jieba 分词源码
- 使用 glog 作为日志输出模块
# 3.2
- 将发布证书改为 MIT
# 3.1
- 对空间临近词的邻居进行缓存,提高返回速度
- nearby 中处理 OOV返回 ([], [])
# 3.0 - 更简单的定制和配置,增加了额外的开销
- 去掉 nearby words, 使用 kdtree 检索空间词汇的最近临
- 增加了对 sk-learn 的依赖,但是减少了对词向量的预处理
- 优化了分词所使用的字典,也可以使用环境变量声明主字典
- 支持自定义 word2vec 模型,使用环境变量声明
# 2.5
- 使用空间距离近的词汇优化编辑距离计算
# 2.3
- 计算相似度时增加平滑策略
# v1.6
- use `jieba` instead of `thulac` as tokeninzer.
- refine console log for Jupyter notebook.