Update README.md

This commit is contained in:
刘同学 2017-07-16 23:20:49 +08:00 committed by GitHub
parent 054191ca41
commit 7a2f39fd4d

View File

@ -7,19 +7,20 @@ Doc2Vec模型基于Word2vec模型并在其基础上增加了一个段落向
1) 训练过程中新增了paragraph id即训练语料中每个句子都有一个唯一的id。paragraph id和普通的word一样也是先映射成一个向量即paragraph vector。paragraph vector与word vector的维数虽一样但是来自于两个不同的向量空间。在之后的计算里paragraph vector和word vector累加或者连接起来作为输出层softmax的输入。在一个句子或者文档的训练过程中paragraph id保持不变共享着同一个paragraph vector相当于每次在预测单词的概率时都利用了整个句子的语义。
2) 在预测阶段给待预测的句子新分配一个paragraph id词向量和输出层softmax的参数保持训练阶段得到的参数不变重新利用梯度下降训练待预测的句子。待收敛后即得到待预测句子的paragraph vector。
2. 算法实现
算法实现
-------------
利用Python的gensim.Doc2Vec接口进行模型训练API如下
model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4)
documents为之前被处理好的TaggedDocument类型
size是特征向量的维数
window是在文档中用于预测的预测单词和上下文单词之间的最大距离。
min_count是指低于此数量是词忽略不计
workers指线程数量
<p>model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4)</p>
<p>documents为之前被处理好的TaggedDocument类型</p>
<p>size是特征向量的维数</p>
<p>window是在文档中用于预测的预测单词和上下文单词之间的最大距离。</p>
<p>min_count是指低于此数量是词忽略不计</p>
<p>workers指线程数量</p>
原始语料进行处理之后对模型进行训练,得到模型并进行存储。下一次使用直接调用节省时间
3. 结果分析
由于目前没有正式的语料库,我们只能通过肉眼进行准确率的评判。
结果分析
-------------
<p>由于目前没有正式的语料库,我们只能通过肉眼进行准确率的评判。</p>
输入句子:
'本院认为,被告人邱某以非法占有为目的,以暴力或以暴力胁迫手段抢劫他人财物;且以非法占有为目的,趁人不备夺取他人财物,数额较大,其行为已构成抢劫罪、抢夺罪。公诉机关指控的罪名成立。被告人邱某犯有数罪,依法实行数罪并罚。被告人邱某辩称及其辩护人提出被告人邱某没有以“掐死你”的语言威胁罗某,亦没有捂住易某的嘴巴,只是抢得金项链就跑,因而不构成抢劫罪,并有自首情节的辩护意见,经查,被害人罗某陈述被告人邱某以“掐死你”的语言威胁,易某陈述邱某捂住其嘴巴,而后抢走金项链、金吊坠,被告人邱某在侦查阶段的供述亦与被害人陈述相吻合,且被告人邱某系当场被公安机关抓获后才交待抢劫犯罪事实,当庭对抢劫予以否认不符合自首的构成要件,因此本院对被告人邱某辩称及其辩护人提出的不构成抢劫罪及有自首情节的意见不予采纳;但对被告人邱某的辩护人提出赔偿了被害人罗某的损失,取得了罗的谅解,依法可酌情从轻处罚的辩护意见,本院予以采纳。依照《中华人民共和国刑法》第二百六十三条、第二百六十七条第一款、第六十一条、第六十九条、第五十二条、第五十三条之规定,判决如下:'
返回前十个相似的句子,如下: