对Python中gensim库word2vec的使用详解


Posted in Python onMay 08, 2018

pip install gensim安装好库后,即可导入使用:

1、训练模型定义

from gensim.models import Word2Vec 
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)

参数解释:

1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。

2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。

4.min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。

5.negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。

6.hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。

7.workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname) 
model = Word2Vec.load(fname)

3、模型使用(词语相似度计算等)

model.most_similar(positive=['woman', 'king'], negative=['man']) 
#输出[('queen', 0.50882536), ...] 
 
model.doesnt_match("breakfast cereal dinner lunch".split()) 
#输出'cereal' 
 
model.similarity('woman', 'man') 
#输出0.73723527 
 
model['computer'] # raw numpy vector of a word 
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

其它内容不再赘述,详细请参考gensim的word2vec的官方说明,里面讲的很详细。

以上这篇对Python中gensim库word2vec的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中使用OpenCV进行人脸检测的例子
Apr 18 Python
python使用socket连接远程服务器的方法
Apr 29 Python
在Python的struct模块中进行数据格式转换的方法
Jun 17 Python
详解Python3中yield生成器的用法
Aug 20 Python
Python循环语句之break与continue的用法
Oct 14 Python
python3.4用函数操作mysql5.7数据库
Jun 23 Python
详解python中executemany和序列的使用方法
Aug 12 Python
Python定时任务随机时间执行的实现方法
Aug 14 Python
pytorch 加载(.pth)格式的模型实例
Aug 20 Python
python numpy之np.random的随机数函数使用介绍
Oct 06 Python
tensorflow获取预训练模型某层参数并赋值到当前网络指定层方式
Jan 24 Python
Django分组聚合查询实例分享
Apr 29 Python
用python处理MS Word的实例讲解
May 08 #Python
基于python批量处理dat文件及科学计算方法详解
May 08 #Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 #Python
Ubuntu下使用python读取doc和docx文档的内容方法
May 08 #Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
You might like
推荐几部必看的DC动画电影
2020/03/03 欧美动漫
Laravel6.0.4中将添加计划任务事件的方法步骤
2019/10/15 PHP
Javascript与vbscript数据共享
2007/01/09 Javascript
JavaScript版TAB选项卡效果实例
2013/08/16 Javascript
原生js实现fadein 和 fadeout淡入淡出效果
2014/06/05 Javascript
JS按回车键实现登录的方法
2014/08/25 Javascript
解决JS组件bootstrap table分页实现过程中遇到的问题
2016/04/21 Javascript
底部悬浮通栏可以关闭广告位的实现方法
2016/06/01 Javascript
js重写方法的简单实现
2016/07/10 Javascript
jquery.guide.js新版上线操作向导镂空提示jQuery插件(推荐)
2017/05/20 jQuery
vue实现页面加载动画效果
2017/09/19 Javascript
使用js在layui中实现上传图片压缩
2019/06/18 Javascript
使用 JavaScript 创建并下载文件(模拟点击)
2019/10/25 Javascript
JS实现拼图游戏
2021/01/29 Javascript
vue移动端的左右滑动事件详解
2020/06/17 Javascript
python3.0 字典key排序
2008/12/24 Python
python使用点操作符访问字典(dict)数据的方法
2015/03/16 Python
使用Python的Tornado框架实现一个一对一聊天的程序
2015/04/25 Python
在Python中操作列表之List.append()方法的使用
2015/05/20 Python
用Django实现一个可运行的区块链应用
2018/03/08 Python
python3学习之Splash的安装与实例教程
2018/07/09 Python
Python实现正整数分解质因数操作示例
2018/08/01 Python
python实现感知器算法(批处理)
2019/01/18 Python
详解Python Qt的窗体开发的基本操作
2019/07/14 Python
pytorch自定义二值化网络层方式
2020/01/07 Python
python遍历路径破解表单的示例
2020/11/21 Python
Giuseppe Zanotti美国官方网站:将鞋履视为高级时装般精心制作
2018/02/06 全球购物
Ever New加拿大官网:彰显女性美
2018/10/05 全球购物
Hello Molly美国:女性时尚在线
2019/08/26 全球购物
2014党的群众路线教育实践活动总结报告
2014/10/31 职场文书
高一军训决心书
2015/02/05 职场文书
会议营销主持词
2015/07/03 职场文书
2015年三好一满意工作总结
2015/07/24 职场文书
python实现批量提取指定文件夹下同类型文件
2021/04/05 Python
Spring Data JPA使用JPQL与原生SQL进行查询的操作
2021/06/15 Java/Android
MySQL中CURRENT_TIMESTAMP的使用方式
2021/11/27 MySQL