对Python中gensim库word2vec的使用详解


Posted in Python onMay 08, 2018

pip install gensim安装好库后,即可导入使用:

1、训练模型定义

from gensim.models import Word2Vec 
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)

参数解释:

1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。

2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。

4.min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。

5.negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。

6.hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。

7.workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname) 
model = Word2Vec.load(fname)

3、模型使用(词语相似度计算等)

model.most_similar(positive=['woman', 'king'], negative=['man']) 
#输出[('queen', 0.50882536), ...] 
 
model.doesnt_match("breakfast cereal dinner lunch".split()) 
#输出'cereal' 
 
model.similarity('woman', 'man') 
#输出0.73723527 
 
model['computer'] # raw numpy vector of a word 
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

其它内容不再赘述,详细请参考gensim的word2vec的官方说明,里面讲的很详细。

以上这篇对Python中gensim库word2vec的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现在pickling的时候压缩的方法
Sep 25 Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 Python
python模块之re正则表达式详解
Feb 03 Python
python字符串str和字节数组相互转化方法
Mar 18 Python
Python列表和元组的定义与使用操作示例
Jul 26 Python
Python实现爬取需要登录的网站完整示例
Aug 19 Python
react+django清除浏览器缓存的几种方法小结
Jul 17 Python
解决django 新增加用户信息出现错误的问题
Jul 28 Python
python3多线程知识点总结
Sep 26 Python
python字典排序的方法
Oct 12 Python
在python中使用nohup命令说明
Apr 16 Python
10个python爬虫入门基础代码实例 + 1个简单的python爬虫完整实例
Dec 16 Python
用python处理MS Word的实例讲解
May 08 #Python
基于python批量处理dat文件及科学计算方法详解
May 08 #Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 #Python
Ubuntu下使用python读取doc和docx文档的内容方法
May 08 #Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
You might like
php简单静态页生成过程
2008/03/27 PHP
PHP 分页类(模仿google)-面试题目解答
2009/09/13 PHP
memcache命令启动参数中文解释
2014/01/13 PHP
php使用curl简单抓取远程url的方法
2015/03/13 PHP
PHP实现适用于文件内容操作的分页类
2016/06/15 PHP
php 变量引用与变量销毁机制详细介绍
2016/12/05 PHP
PHP与SQL语句写一句话木马总结
2019/10/11 PHP
JavaScript Event学习第十一章 按键的检测
2010/02/10 Javascript
JS中如何判断传过来的JSON数据中是否存在某字段
2014/08/18 Javascript
Egret引擎开发指南之运行项目
2014/09/03 Javascript
整理JavaScript创建对象的八种方法
2015/11/03 Javascript
javascript实现无缝上下滚动特效
2015/12/16 Javascript
BootStrap的JS插件之轮播效果案例详解
2016/05/16 Javascript
jQuery弹出div层过2秒自动消失
2016/11/29 Javascript
Javascript中数组去重与拍平的方法示例
2017/02/03 Javascript
Vee-Validate的使用方法详解
2017/09/22 Javascript
js中getBoundingClientRect的作用及兼容方案详解
2018/02/01 Javascript
浅谈webpack 自动刷新与解析
2018/04/09 Javascript
浅谈js闭包理解
2019/04/01 Javascript
[46:12]完美世界DOTA2联赛循环赛 DM vs Matador BO2第一场 11.04
2020/11/04 DOTA
Django框架下在视图中使用模版的方法
2015/07/16 Python
python实现批量监控网站
2016/09/09 Python
详解用Python处理HTML转义字符的5种方式
2017/12/27 Python
用python统计代码行的示例(包括空行和注释)
2018/07/24 Python
pyenv与virtualenv安装实现python多版本多项目管理
2019/08/17 Python
分享一个pycharm专业版安装的永久使用方法
2019/09/24 Python
Python实现随机取一个矩阵数组的某几行
2019/11/26 Python
PyCharm License Activation激活码失效问题的解决方法(图文详解)
2020/03/12 Python
斯洛伐克最大的婴儿食品和用品网上商店:Feedo.sk
2020/12/21 全球购物
农业资源与环境专业自荐信范文
2013/12/30 职场文书
项目采购员岗位职责
2014/04/15 职场文书
蛋糕店创业计划书范文
2014/09/21 职场文书
民间个人借款协议书
2014/09/30 职场文书
Python趣味挑战之实现简易版音乐播放器
2021/05/28 Python
只用20行Python代码实现屏幕录制功能
2021/06/02 Python
Python虚拟环境virtualenv是如何使用的
2021/06/20 Python