2018-10-25 11:29:41 +08:00
|
|
|
|
# 3.10
|
|
|
|
|
* 计算编辑距离时去停用词
|
|
|
|
|
|
|
|
|
|
# 3.9
|
|
|
|
|
* fix bug
|
|
|
|
|
|
2018-09-21 21:42:43 +08:00
|
|
|
|
# 3.8
|
2018-09-21 21:58:02 +08:00
|
|
|
|
* 获得一个分词后句子的向量,向量以BoW方式组成
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
```
|
|
|
|
|
sentence: 句子是分词后通过空格联合起来
|
|
|
|
|
ignore: 是否忽略OOV,False时,随机生成一个向量
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# 3.7
|
2018-09-21 21:42:43 +08:00
|
|
|
|
* change import path of utils in word2vec.py to local path
|
|
|
|
|
* expose vector fn
|
|
|
|
|
|
2018-05-28 11:44:36 +08:00
|
|
|
|
# 3.6
|
|
|
|
|
* Fix Bug: compare 保证交换两个句子后分数一致 [#60](https://github.com/huyingxi/Synonyms/issues/60)
|
2018-04-12 19:01:57 +08:00
|
|
|
|
|
|
|
|
|
# 3.5
|
|
|
|
|
* 根据实际情况,降低向量距离对近似度分数的影响
|
|
|
|
|
|
2018-03-04 10:33:13 +08:00
|
|
|
|
# 3.3
|
|
|
|
|
* 增加分词接口
|
2018-03-05 09:17:34 +08:00
|
|
|
|
* 优化分词器初始化加载字典
|
2018-03-05 11:19:50 +08:00
|
|
|
|
* 使用jieba分词源码
|
2018-03-08 11:19:36 +08:00
|
|
|
|
* 使用 glog 作为日志输出模块
|
2018-03-04 10:33:13 +08:00
|
|
|
|
|
2018-03-04 10:04:39 +08:00
|
|
|
|
# 3.2
|
|
|
|
|
* 将发布证书改为MIT
|
|
|
|
|
|
2018-03-04 09:52:44 +08:00
|
|
|
|
# 3.1
|
|
|
|
|
* 对空间临近词的邻居进行缓存,提高返回速度
|
|
|
|
|
* nearby中处理OOV,返回 ([], [])
|
|
|
|
|
|
2018-03-03 23:49:33 +08:00
|
|
|
|
# 3.0 - 更简单的定制和配置,增加了额外的开销
|
|
|
|
|
* 去掉nearby words, 使用 kdtree检索空间词汇的最近临
|
|
|
|
|
* 增加了对sk-learn的依赖,但是减少了对词向量的预处理
|
|
|
|
|
* 优化了分词所使用的字典,也可以使用环境变量声明主字典
|
|
|
|
|
* 支持自定义word2vec模型,使用环境变量声明
|
|
|
|
|
|
2018-03-02 11:07:45 +08:00
|
|
|
|
# 2.5
|
|
|
|
|
* 使用空间距离近的词汇优化编辑距离计算
|
|
|
|
|
|
2018-03-01 23:29:35 +08:00
|
|
|
|
# 2.3
|
|
|
|
|
* 计算相似度时增加平滑策略
|
|
|
|
|
|
2017-10-28 10:06:11 +08:00
|
|
|
|
# v1.6
|
|
|
|
|
* use ```jieba``` instead of ```thulac``` as tokeninzer.
|
|
|
|
|
* refine console log for Jupyter notebook.
|