对Python中gensim库word2vec的使用详解


Posted in Python onMay 08, 2018

pip install gensim安装好库后,即可导入使用:

1、训练模型定义

from gensim.models import Word2Vec 
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)

参数解释:

1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。

2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。

4.min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。

5.negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。

6.hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。

7.workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname) 
model = Word2Vec.load(fname)

3、模型使用(词语相似度计算等)

model.most_similar(positive=['woman', 'king'], negative=['man']) 
#输出[('queen', 0.50882536), ...] 
 
model.doesnt_match("breakfast cereal dinner lunch".split()) 
#输出'cereal' 
 
model.similarity('woman', 'man') 
#输出0.73723527 
 
model['computer'] # raw numpy vector of a word 
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

其它内容不再赘述,详细请参考gensim的word2vec的官方说明,里面讲的很详细。

以上这篇对Python中gensim库word2vec的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用logging模块打印log日志详解
Apr 05 Python
Python导出DBF文件到Excel的方法
Jul 25 Python
Python实现递归遍历文件夹并删除文件
Apr 18 Python
Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享
Jul 04 Python
新手如何快速入门Python(菜鸟必看篇)
Jun 10 Python
pandas or sql计算前后两行数据间的增值方法
Apr 20 Python
python的pytest框架之命令行参数详解(上)
Jun 27 Python
Python之变量类型和if判断方式
May 05 Python
python实现canny边缘检测
Sep 14 Python
matplotlib制作雷达图报错ValueError的实现
Jan 05 Python
Python源码解析之List
May 21 Python
Python之matplotlib绘制折线图
Apr 13 Python
用python处理MS Word的实例讲解
May 08 #Python
基于python批量处理dat文件及科学计算方法详解
May 08 #Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 #Python
Ubuntu下使用python读取doc和docx文档的内容方法
May 08 #Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
You might like
全国FM电台频率大全 - 30 宁夏回族自治区
2020/03/11 无线电
PHP 地址栏信息的获取代码
2009/01/07 PHP
PHP 类型转换函数intval
2009/06/20 PHP
php统计文件大小,以GB、MB、KB、B输出
2011/05/29 PHP
Youku 视频绝对地址获取的方法详解
2013/06/26 PHP
使用php清除bom示例
2014/03/03 PHP
PHP正则之正向预查与反向预查讲解与实例
2020/04/06 PHP
一段实时更新的时间代码
2006/07/07 Javascript
jquery事件机制扩展插件 jquery鼠标右键事件
2011/12/21 Javascript
分享一个自定义的console类 让你不再纠结JS中的调试代码的兼容
2012/04/20 Javascript
用C/C++来实现 Node.js 的模块(一)
2014/09/24 Javascript
jQuery实现ichat在线客服插件
2014/12/29 Javascript
超实用的javascript时间处理总结
2016/08/16 Javascript
实例解析ES6 Proxy使用场景介绍
2018/01/08 Javascript
vue框架搭建之axios使用教程
2018/07/11 Javascript
LayerClose弹窗关闭刷新方法
2018/08/17 Javascript
vue 实现基础组件的自动化全局注册
2020/12/25 Vue.js
快速实现基于Python的微信聊天机器人示例代码
2017/03/03 Python
Python自动化完成tb喵币任务的操作方法
2019/10/30 Python
Numpy将二维数组添加到空数组的实现
2019/12/05 Python
基于MSELoss()与CrossEntropyLoss()的区别详解
2020/01/02 Python
如何基于python3和Vue实现AES数据加密
2020/03/27 Python
Pytorch高阶OP操作where,gather原理
2020/04/30 Python
CSS3字体效果的设置方法小结
2016/06/13 HTML / CSS
css3的图形3d翻转效果应用示例
2014/04/08 HTML / CSS
很酷的HTML5电子书翻页动画特效
2016/02/25 HTML / CSS
介绍一下write命令
2012/09/24 面试题
应届生求职信写作技巧
2013/10/24 职场文书
工程项目经理任命书
2014/06/05 职场文书
村班子对照检查材料
2014/08/18 职场文书
社区文艺活动方案
2014/08/19 职场文书
纪念九一八事变演讲稿:牢记历史,捍卫主权
2014/09/14 职场文书
2015年父亲节寄语
2015/03/23 职场文书
2015学生会文艺部工作总结
2015/04/03 职场文书
2015年党员公开承诺事项
2015/04/27 职场文书
JavaScript实现简单的音乐播放器
2022/08/14 Javascript