对Python中gensim库word2vec的使用详解


Posted in Python onMay 08, 2018

pip install gensim安装好库后,即可导入使用:

1、训练模型定义

from gensim.models import Word2Vec 
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)

参数解释:

1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。

2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。

4.min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。

5.negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。

6.hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。

7.workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname) 
model = Word2Vec.load(fname)

3、模型使用(词语相似度计算等)

model.most_similar(positive=['woman', 'king'], negative=['man']) 
#输出[('queen', 0.50882536), ...] 
 
model.doesnt_match("breakfast cereal dinner lunch".split()) 
#输出'cereal' 
 
model.similarity('woman', 'man') 
#输出0.73723527 
 
model['computer'] # raw numpy vector of a word 
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

其它内容不再赘述,详细请参考gensim的word2vec的官方说明,里面讲的很详细。

以上这篇对Python中gensim库word2vec的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之坑爹的字符编码
Sep 28 Python
Pyhton中防止SQL注入的方法
Feb 05 Python
对Python w和w+权限的区别详解
Jan 23 Python
浅析Python3中的对象垃圾收集机制
Jun 06 Python
Python分析彩票记录并预测中奖号码过程详解
Jul 09 Python
Python之虚拟环境virtualenv,pipreqs生成项目依赖第三方包的方法
Jul 23 Python
python自定义时钟类、定时任务类
Feb 22 Python
浅谈Pycharm最有必要改的几个默认设置项
Feb 14 Python
Pycharm和Idea支持的vim插件的方法
Feb 21 Python
python中安装django模块的方法
Mar 12 Python
numpy中生成随机数的几种常用函数(小结)
Aug 18 Python
python中用ctypes模拟点击的实例讲解
Nov 26 Python
用python处理MS Word的实例讲解
May 08 #Python
基于python批量处理dat文件及科学计算方法详解
May 08 #Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 #Python
Ubuntu下使用python读取doc和docx文档的内容方法
May 08 #Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
You might like
无线电的诞生过程
2021/03/01 无线电
Ha0k 0.3 PHP 网页木马修改版
2009/10/11 PHP
PHP闭包实例解析
2014/09/08 PHP
PHP pear安装配置教程
2016/05/14 PHP
php微信开发之关键词回复功能
2018/06/13 PHP
php多进程应用场景实例详解
2019/07/22 PHP
JQuery 插件模板 制作jquery插件的朋友可以参考下
2010/03/17 Javascript
jQuery获取CSS样式中的颜色值的问题,不同浏览器格式不同的解决办法
2013/05/13 Javascript
window.event.keyCode兼容IE和Firefox实现js代码
2013/05/30 Javascript
Bootstrap选项卡与Masonry插件的完美结合
2016/07/06 Javascript
详解从Node.js的child_process模块来学习父子进程之间的通信
2017/03/27 Javascript
Angular通过angular-cli来搭建web前端项目的方法
2017/07/27 Javascript
小白教程|一小时上手最流行的前端框架vue(推荐)
2019/04/10 Javascript
深入了解query和params的使用区别
2019/06/24 Javascript
JavaScript逻辑运算符相关总结
2020/09/04 Javascript
JavaScript的一些小技巧分享
2021/01/06 Javascript
python实现端口转发器的方法
2015/03/13 Python
Python中的自省(反射)详解
2015/06/02 Python
python ansible服务及剧本编写
2017/12/29 Python
微信跳一跳自动运行python脚本
2018/01/08 Python
python 并发编程 阻塞IO模型原理解析
2019/08/20 Python
python给指定csv表格中的联系人群发邮件(带附件的邮件)
2019/12/31 Python
浅谈numpy中np.array()与np.asarray的区别以及.tolist
2020/06/03 Python
Python偏函数Partial function使用方法实例详解
2020/06/17 Python
Python实现我的世界小游戏源代码
2021/03/02 Python
HTML5实现视频直播功能思路详解
2017/11/16 HTML / CSS
购买大码女装:Lane Bryant
2016/09/07 全球购物
阿迪达斯芬兰官方网站:adidas芬兰
2017/01/30 全球购物
亚洲最大的运动鞋寄售店:KicksCrew
2020/11/26 全球购物
公司办公室岗位职责
2014/03/19 职场文书
2014大学生批评与自我批评思想汇报
2014/09/21 职场文书
党校毕业个人总结
2015/02/28 职场文书
2015年小学一年级班主任工作总结
2015/05/21 职场文书
机关单位2016年法制宣传日活动总结
2016/04/01 职场文书
nginx proxy_cache 缓存配置详解
2021/03/31 Servers
使用Python开发贪吃蛇游戏 SnakeGame
2022/04/30 Python