在python下实现word2vec词向量训练与加载实例


Posted in Python onJune 09, 2020

项目中要对短文本进行相似度估计,word2vec是一个很火的工具。本文就word2vec的训练以及加载进行了总结。

word2vec的原理就不描述了,word2vec词向量工具是由google开发的,输入为文本文档,输出为基于这个文本文档的语料库训练得到的词向量模型。

通过该模型可以对单词的相似度进行量化分析。

word2vec的训练方法有2种,一种是通过word2vec的官方手段,在linux环境下编译并执行。

在github上下载word2vec的安装包,然后make编译。查看demo-word.sh脚本,得到word2vec的执行命令:

./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

参数解释:

1)-train:需要训练的语料库,text8为语料库文件名

2)-output:输出的词向量文件,vectors.bin为输出词向量文件名,.bin后缀为二进制文件。若要以文档的形式查看词向量文件,需要将-binary参数的值由1改为0

3)-cbow:是否使用cbow模型进行训练。参数为1表示使用cbow,为0表示不使用cbow

4)-size:词向量的维数,默认为200维。

5)-window:训练过程中截取上下文的窗口大小,默认为8,即考虑一个词前8个和后8个词

6)-negative:若参数非0,表明采样随机负采样的方法,负样本子集的规模默认为25。若参数值为0,表示不使用随机负采样模型。使用随机负采样比Hierarchical Softmax模型效率更高。

7)-hs:是否采用基于Hierarchical Softmax的模型。参数为1表示使用,0表示不使用

8)-sample:语料库中的词频阈值参数,词频大于该阈值的词,越容易被采样。默认为e^-4.

9)-threads:开启的线程数目,默认为20.

10)-binary:词向量文件的输出形式。1表示输出二进制文件,0表示输出文本文件

11)-iter:训练的迭代次数。一定范围内,次数越高,训练得到的参数会更准确。默认值为15次.

./word2vec -train mytext.txt -output vectors.txt -cbow 1 -size 200 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 30

示例为训练一个名mytext.txt的文档。设置输出词向量的格式为.txt文本文档,所以还需要将-binary参数设置为0.

训练模型采用基于随机负采样的cbow模型。由于短文本字数极为有限,所以-window参数设置为5,设置词向量的维数

为200,为了使得到的参数更准确,将迭代次数增加至30.其他参数使用默认值。

训练以后得到一个txt文本,该文本的内容为:每行一个单词,单词后面是对应的词向量。

gensim加载词向量:

保存词向量模型到pkl中(注意:这里是对词向量模型进行构建)

from gensim.models import KeyedVectors
if not os.path.exists(pkl_path): # 如果pickle模型不存在,则构建一个

    print '词向量模型不存在,开始构建词向量模型...'
    Word2Vec = KeyedVectors.load_word2vec_format(vecs_path, binary=False) # 加载词向量模型
    f = file(pkl_path, 'wb')
    pickle.dump(Word2Vec, f, True)
    f.close()
    print '词向量模型构建完毕...'

f= file(pkl_path, 'rb')# 打开pkl文件
word2vec=pickle.load(f)# 载入pkl

第二种方法是使用gensim模块训练词向量:

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

try:
  import cPickle as pickle
except ImportError:
  import pickle

sentences = LineSentence(path)# path为要训练的txt的路径
# 对sentences表示的语料库进行训练,训练200维的词向量,窗口大小设置为5,最小词频设置为5
model = Word2Vec(sentences, size=200, window=5, min_count=5)
model.save(model_path)#model_path为模型路径。保存模型,通常采用pkl形式保存,以便下次直接加载即可

# 加载模型
model = Word2Vec.load(model_path)

完整的训练,加载通常采用如下方式:

if not os.path.exists(model_path):
    sentences = LineSentence(path)
    model = Word2Vec(sentences, size=200, window=5, min_count=5)
    model.save(model_path)
model = Word2Vec.load(model_path)

这样一来,就可以通过pkl化的词向量模型进行读取了。pkl的目的是为了保存程序中变量的状态,以便下次直接访问,

不必重新训练模型。

详细内容间gensim官方库

https://radimrehurek.com/gensim/models/word2vec.html

以上这篇在python下实现word2vec词向量训练与加载实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现批量读取word中表格信息的方法
Jul 30 Python
Python+Pika+RabbitMQ环境部署及实现工作队列的实例教程
Jun 29 Python
Python中的左斜杠、右斜杠(正斜杠和反斜杠)
Aug 30 Python
在VS Code上搭建Python开发环境的方法
Apr 06 Python
Python随机生成身份证号码及校验功能
Dec 04 Python
python实现维吉尼亚算法
Mar 20 Python
python项目对接钉钉SDK的实现
Jul 15 Python
python的移位操作实现详解
Aug 21 Python
Python使用sys.exc_info()方法获取异常信息
Jul 23 Python
Django配置Bootstrap, js实现过程详解
Oct 13 Python
Python模块常用四种安装方式
Oct 20 Python
分享一枚pycharm激活码适用所有pycharm版本我的pycharm2020.2.3激活成功
Nov 20 Python
Python实现寻找回文数字过程解析
Jun 09 #Python
pycharm 关掉syntax检查操作
Jun 09 #Python
Python控制台实现交互式环境执行
Jun 09 #Python
使用pycharm和pylint检查python代码规范操作
Jun 09 #Python
Python基于数列实现购物车程序过程详解
Jun 09 #Python
pycharm 对代码做静态检查操作
Jun 09 #Python
Python3读取和写入excel表格数据的示例代码
Jun 09 #Python
You might like
用PHP实现 上一篇、下一篇的代码
2012/09/29 PHP
PHP创建/删除/复制文件夹、文件
2016/05/03 PHP
PHP中OpenSSL加密问题整理
2017/12/14 PHP
thinkphp 中的volist标签在ajax操作中的特殊性(推荐)
2018/01/15 PHP
JS Timing
2007/04/21 Javascript
获取表单控件原始(初始)值的方法
2013/08/21 Javascript
jQuery:delegate中select()不起作用的解决方法(实例讲解)
2014/01/26 Javascript
js实现身份证号码验证的简单实例
2014/02/19 Javascript
JS获取及验证开始结束日期的方法
2016/08/20 Javascript
JS与jQuery实现隔行变色的方法
2016/09/09 Javascript
vue axios数据请求及vue中使用axios的方法
2018/09/10 Javascript
js如何实现元素曝光上报
2019/08/07 Javascript
JS 数组基本用法入门示例解析
2020/01/16 Javascript
[04:30]显微镜下的DOTA2第五期——拉比克
2013/09/26 DOTA
[01:29:17]RNG vs Liquid 2019国际邀请赛淘汰赛 败者组 BO3 第二场 8.23
2019/09/05 DOTA
Python读取一个目录下所有目录和文件的方法
2016/07/15 Python
对python:threading.Thread类的使用方法详解
2019/01/31 Python
详解Python匿名函数(lambda函数)
2019/04/19 Python
python的几种矩阵相乘的公式详解
2019/07/10 Python
python中68个内置函数的总结与介绍
2020/02/24 Python
Python接口自动化判断元素原理解析
2020/02/24 Python
对Python中 \r, \n, \r\n的彻底理解
2020/03/06 Python
python如何实现读取并显示图片(不需要图形界面)
2020/07/08 Python
Python tkinter界面实现历史天气查询的示例代码
2020/08/23 Python
浅析CSS3 用text-overflow解决文字排版问题
2020/10/28 HTML / CSS
HTML5使用DOM进行自定义控制示例代码
2013/06/08 HTML / CSS
详解如何解决canvas图片getImageData,toDataURL跨域问题
2018/09/17 HTML / CSS
如何利用find命令查找文件
2016/11/18 面试题
人力资源部副职的竞聘演讲稿
2014/01/07 职场文书
大学自我评价
2014/02/12 职场文书
毕业典礼演讲稿
2014/05/13 职场文书
文明城市标语
2014/06/16 职场文书
落实八项规定专题民主生活会对照检查材料
2014/09/15 职场文书
签订劳动合同通知书
2015/04/16 职场文书
Oracle以逗号分隔的字符串拆分为多行数据实例详解
2021/07/16 Oracle
Python 第三方库 openpyxl 的安装过程
2022/12/24 Python