对Python中gensim库word2vec的使用详解


Posted in Python onMay 08, 2018

pip install gensim安装好库后,即可导入使用:

1、训练模型定义

from gensim.models import Word2Vec 
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)

参数解释:

1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。

2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。

4.min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。

5.negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。

6.hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。

7.workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname) 
model = Word2Vec.load(fname)

3、模型使用(词语相似度计算等)

model.most_similar(positive=['woman', 'king'], negative=['man']) 
#输出[('queen', 0.50882536), ...] 
 
model.doesnt_match("breakfast cereal dinner lunch".split()) 
#输出'cereal' 
 
model.similarity('woman', 'man') 
#输出0.73723527 
 
model['computer'] # raw numpy vector of a word 
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

其它内容不再赘述,详细请参考gensim的word2vec的官方说明,里面讲的很详细。

以上这篇对Python中gensim库word2vec的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3里的super()和__class__使用介绍
Apr 23 Python
python统计cpu利用率的方法
Jun 02 Python
python实现冒泡排序算法的两种方法
Mar 10 Python
使用pycharm设置控制台不换行的操作方法
Jan 19 Python
python初学者,用python实现基本的学生管理系统(python3)代码实例
Apr 10 Python
详解用python计算阶乘的几种方法
Aug 14 Python
Python使用字典实现的简单记事本功能示例
Aug 15 Python
Python Pandas 转换unix时间戳方式
Dec 07 Python
python为Django项目上的每个应用程序创建不同的自定义404页面(最佳答案)
Mar 09 Python
django的403/404/500错误自定义页面的配置方式
May 21 Python
什么是python的列表推导式
May 26 Python
python基础之爬虫入门
May 10 Python
用python处理MS Word的实例讲解
May 08 #Python
基于python批量处理dat文件及科学计算方法详解
May 08 #Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 #Python
Ubuntu下使用python读取doc和docx文档的内容方法
May 08 #Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
You might like
php压缩和解压缩字符串的方法
2015/03/14 PHP
永不消失的title提示代码
2007/02/15 Javascript
实现超用户体验 table排序javascript实现代码
2009/06/22 Javascript
Mootools 1.2教程 选项卡效果(Tabs)
2009/09/15 Javascript
为jQuery.Treeview添加右键菜单的实现代码
2010/10/22 Javascript
DIV菜单层实现代码
2010/11/19 Javascript
避免回车键导致的页面无意义刷新的解决方法
2011/04/12 Javascript
Javascript Throttle & Debounce应用介绍
2013/03/19 Javascript
代码获取历史上的今天发生的事
2014/04/11 Javascript
JavaScript使用循环和分割来替换和删除元素实例
2014/10/13 Javascript
JavaScript获得指定对象大小的方法
2015/07/01 Javascript
简单谈谈gulp-changed插件
2017/02/21 Javascript
JQuery中Ajax的操作完整例子
2017/03/07 Javascript
Jquery把获取到的input值转换成json
2017/05/15 jQuery
基于daterangepicker日历插件使用参数注意的问题
2017/08/10 Javascript
详解Vue串联过滤器的使用场景
2020/04/30 Javascript
vue路由权限校验功能的实现代码
2020/06/07 Javascript
python基础教程之popen函数操作其它程序的输入和输出示例
2014/02/10 Python
Python subprocess模块学习总结
2014/03/13 Python
初步介绍Python中的pydoc模块和distutils模块
2015/04/13 Python
简单介绍Python中的try和finally和with方法
2015/05/05 Python
对python中的乘法dot和对应分量相乘multiply详解
2018/11/14 Python
python对csv文件追加写入列的方法
2019/08/01 Python
python中如何使用虚拟环境
2020/10/14 Python
使用BeautifulSoup4解析XML的方法小结
2020/12/07 Python
python实现excel公式格式化的示例代码
2020/12/23 Python
伦敦高级内衣品牌:Agent Provocateur(大内密探)
2016/08/23 全球购物
欧舒丹比利时官网:L’OCCITANE比利时
2017/04/25 全球购物
eBay法国购物网站:eBay.fr
2017/10/21 全球购物
日本著名的服饰鞋帽综合类购物网站:MAGASEEK
2019/01/09 全球购物
请说出这段代码执行后a和b的值分别是多少
2015/03/28 面试题
外贸销售员求职的自我评价
2013/11/23 职场文书
执行总经理岗位职责
2014/02/03 职场文书
本科毕业论文导师评语
2014/12/31 职场文书
2015年加油站工作总结
2015/05/13 职场文书
Golang中interface{}转为数组的操作
2021/04/30 Golang