对Python中gensim库word2vec的使用详解


Posted in Python onMay 08, 2018

pip install gensim安装好库后,即可导入使用:

1、训练模型定义

from gensim.models import Word2Vec 
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)

参数解释:

1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。

2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。

4.min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。

5.negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。

6.hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。

7.workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname) 
model = Word2Vec.load(fname)

3、模型使用(词语相似度计算等)

model.most_similar(positive=['woman', 'king'], negative=['man']) 
#输出[('queen', 0.50882536), ...] 
 
model.doesnt_match("breakfast cereal dinner lunch".split()) 
#输出'cereal' 
 
model.similarity('woman', 'man') 
#输出0.73723527 
 
model['computer'] # raw numpy vector of a word 
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

其它内容不再赘述,详细请参考gensim的word2vec的官方说明,里面讲的很详细。

以上这篇对Python中gensim库word2vec的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之编写类之一创建实例
Oct 11 Python
零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版
Nov 06 Python
Python实现嵌套列表及字典并按某一元素去重复功能示例
Nov 30 Python
python导出hive数据表的schema实例代码
Jan 22 Python
python删除文本中行数标签的方法
May 31 Python
Python使用pymongo模块操作MongoDB的方法示例
Jul 20 Python
使用python制作游戏下载进度条的代码(程序说明见注释)
Oct 24 Python
配置python的编程环境之Anaconda + VSCode的教程
Mar 29 Python
Python基于模块Paramiko实现SSHv2协议
Apr 28 Python
python打开文件的方式有哪些
Jun 29 Python
python 爬虫基本使用——统计杭电oj题目正确率并排序
Oct 26 Python
Python爬取梨视频的示例
Jan 29 Python
用python处理MS Word的实例讲解
May 08 #Python
基于python批量处理dat文件及科学计算方法详解
May 08 #Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 #Python
Ubuntu下使用python读取doc和docx文档的内容方法
May 08 #Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
You might like
用文本文件制作留言板提示(下)
2006/10/09 PHP
完整删除ecshop中获取店铺信息的API
2014/12/24 PHP
PHP.vs.JAVA
2016/04/29 PHP
PHPExcel中文帮助手册|PHPExcel使用方法(分享)
2017/06/09 PHP
PHP实现上传图片到数据库并显示输出的方法
2018/05/31 PHP
TimergliderJS 一个基于jQuery的时间轴插件
2011/12/07 Javascript
JavaScript 函数惰性载入的实现及其优点介绍
2013/08/12 Javascript
Javascript控制input输入时间格式的方法
2015/01/28 Javascript
Jquery 实现grid绑定模板
2015/01/28 Javascript
简单分析javascript面向对象与原型
2015/05/21 Javascript
使用Node.js配合Nginx实现高负载网络
2015/06/28 Javascript
将JavaScript的jQuery库中表单转化为JSON对象的方法
2015/11/17 Javascript
JS控制层作圆周运动的方法
2016/06/20 Javascript
JavaScript实现复制文章自动添加版权
2016/08/02 Javascript
JS动态的把左边列表添加到右边的实现代码(可上下移动)
2016/11/17 Javascript
JS switch判断 三目运算 while 及 属性操作代码
2017/09/03 Javascript
深入理解JavaScript和TypeScript中的class
2018/04/22 Javascript
vue.js轮播图组件使用方法详解
2018/07/03 Javascript
vue 动态绑定背景图片的方法
2018/08/10 Javascript
js时间转换毫秒的实例代码
2019/08/21 Javascript
解决Vue.js应用回退或刷新界面时提示用户保存修改问题
2019/11/24 Javascript
解决Mint-ui 框架Popup和Datetime Picker组件滚动穿透的问题
2020/11/04 Javascript
vue组件是如何解析及渲染的?
2021/01/13 Vue.js
在服务器端实现无间断部署Python应用的教程
2015/04/16 Python
Python的for和break循环结构中使用else语句的技巧
2016/05/24 Python
Python批量更改文件名的实现方法
2017/10/29 Python
Python中的默认参数实例分析
2018/01/29 Python
python暴力解压rar加密文件过程详解
2019/07/05 Python
python接口调用已训练好的caffe模型测试分类方法
2019/08/26 Python
Python任务调度利器之APScheduler详解
2020/04/02 Python
python3 kubernetes api的使用示例
2021/01/12 Python
详解HTML5布局和HTML5标签
2020/10/26 HTML / CSS
学校三节实施方案
2014/06/09 职场文书
应届毕业生自荐书
2014/06/18 职场文书
水电维修专业推荐信
2014/09/06 职场文书
房产遗嘱范本
2015/08/06 职场文书