win10子系统python开发环境准备及kenlm和nltk的使用教程


Posted in Python onOctober 14, 2019

前言

因为NLP作业需要用到kenlm,而kenlm在linux下更为方便。本人win10之前开启了子系统,所以就打算在子系统下进行相关作业的完成。

首先开启win10子系统,网上教程挺多,照着做就成。我当前安装版本是Ubuntu16.04。终端输入cat /etc/lsb-release或uname可以查看版本。子系统开启后,win10的盘符挂载在mnt下,可以执行ls -al /mnt查看。

Python的下载

Linux中自带python2,不过Pyhton软件基金会宣布到2020年元旦不在为py2任何分支提供支持。所以我们下载安装py3。在后面的编译操作中需要用到make和cmake工具,需要提前下载安装。make和cmake的使用,需要gcc的支持。在这里就不介绍gcc的安装了,可自行百度解决。

make是一个命令工具,它解释 Makefile 中的指令。在Makefile文件中描述了整个工程所有文件的编译顺序、编译规则。make依据Makefile文件来批处理编译,因为编写Makefile文件太繁琐复杂,就出现了cmake工具,它能读入所有源文件之后,自动生成makefile。

在进行下面步骤前,先执行sudo apt update更新,防止出现一些错误

1.make的下载和安装

wget http://ftp.gnu.org/gnu/make/make-4.2.tar.gz
tar -zxvf make-4.2.tar.gz
cd make-4.2
./configure #生成 Makefile,为下一步的编译做准备
make     #进行源代码编译
sudo make install #安装,这一步会将编译好的make文件转移到/usr/local/make目录下,该目录需要root权限
ln -s -f /usr/local/bin/make /usr/bin/make
make --version #查看版本

2.cmake的下载和安装

wget https://cmake.org/files/v3.3/cmake-3.5.1.tar.gz
tar xzvf cmake-3.5.1.tar.gz
yum install gcc-c++ # 安装gcc等程序包(安装过就忽略)
cd cmake-3.5.1
./bootstrap
make
make install
cmake --version #查看版本

cmake 会默认安装在 /usr/local/bin 下面

也可以直接安装build-essential软件包,该软件包中包含了编译c/c++所需要的软件包。sudo apt-get install build-essential

3.Python下载

wget https://www.python.org/ftp/python/3.7.3/Python-3.7.3.tgz

4.解压

tar zxvf Python-3.7.3.tgz
cd Python-3.7.3

5.编译

./configure --with-ssl
make
sudo make install

注意:?with-ssl必须加上,否则使用pip安装第三方包时,会引发ssl错误。导致无法使用。如果执行pip install出错,重新编译安装即可。

一些错误问题:

ZipError:

sudo apt install zlib*

ImportError:'_ctypes'

sudo apt-get install python-dev python-setuptools python-pip python-smbus build-essential libncursesw5-dev libgdbm-dev libc6-dev zlib1g-dev libsqlite3-dev tk-dev libssl-dev openssl libffi-dev

6.创建软链接

# 添加python3的软链接
sudo ln -s /usr/local/bin/python3.7 /usr/bin/python3
# 添加 pip3 的软链接
sudo ln -s /usr/local/bin/pip3.7 /usr/bin/pip3

kenlm的安装

1.boost

在boost官网下载boost,本人下载了boost_1_70_0。

cd boost_1_70_0
./bootstrap.sh
./b2 install

2.xz

wget http://tukaani.org/xz/xz-5.2.2.tar.gz
tar xzvf xz-5.2.2.tar.gz
cd xz-5.2.2
./configure
make
make install

3.zlib

wget http://zlib.net/zlib-1.2.11.tar.gz
tar xzf zlib-1.2.11.tar.gz
cd zlib-1.2.11
./configure
make
make install

4.bzip

wget https://fossies.org/linux/misc/bzip2-1.0.6.tar.gz
tar xzvf bzip2-1.0.6.tar.gz
cd bzip2-1.0.6/
make
make install

5.libbz2-dev

apt-get install libbz2-dev

6.kenlm

在github上有详细的说明,https://github.com/kpu/kenlm。下载解压后

cd kenlm
mkdir -p build
cd build
cmake ..
make -j 4 # 启用4个cpu去编译。提高编译速度
cd ..
python setup.py install

测试,在python环境中导入kenlm无报错,说明kenlm安装成功。或者运行\kenlm\python\example.py文件

nltk安装

nltk直接用pip下载就行,nltk_data文件较大,可以离线下载后添加进路径。win10下使用nltk_data,直接放进D盘中就行,nltk会自动查找到。但是在Linux下需要将nltk_data路径添加到data,或者移动到下面输出的路径中。为了方便,我个人是建立了个软链接sudo ln -s /mnt/d/nltk_data /usr/local/nltk_data

import nltk
nltk.data.find(".")

# Searched in:
#   - '/root/nltk_data'
#   - '/usr/local/nltk_data'
#   - '/usr/local/share/nltk_data'
#   - '/usr/local/lib/nltk_data'
#   - '/usr/share/nltk_data'
#   - '/usr/local/share/nltk_data'
#   - '/usr/lib/nltk_data'
#   - '/usr/local/lib/nltk_data'

在当前会话下添加路径到data

from nltk import data
data.path.append(r"你下载的nltk_data所在路径")

添加完路径,使用nltk.data.path查看当前已添加路径

简单测试

from nltk.tokenize import word_tokenize
sentence = "since the 1890s , and beginning in france , the term ''libertarianism '' has often been used as an synonym for anarchism and was used almost exclusively in this sense until the 1950s in the united states ; its use as an synonym is still common outside the united states ."
print(word_tokenize(sentence))

总结

以上所述是小编给大家介绍的win10子系统python开发环境准备及kenlm和nltk的使用教程,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python实现划词翻译
Apr 23 Python
python基础教程之python消息摘要算法使用示例
Feb 10 Python
python实现监控windows服务并自动启动服务示例
Apr 17 Python
Python使用MYSQLDB实现从数据库中导出XML文件的方法
May 11 Python
pymongo实现多结果进行多列排序的方法
May 16 Python
Python批量按比例缩小图片脚本分享
May 21 Python
python 用for循环实现1~n求和的实例
Feb 01 Python
Python中的asyncio代码详解
Jun 10 Python
python 命令行传入参数实现解析
Aug 30 Python
python字典排序的方法
Oct 12 Python
Python 通过正则表达式快速获取电影的下载地址
Aug 17 Python
解决tensorflow模型压缩的问题_踩坑无数,总算搞定
Mar 02 Python
python web框架Flask实现图形验证码及验证码的动态刷新实例
Oct 14 #Python
执行Django数据迁移时报 1091错误及解决方法
Oct 14 #Python
解析Python3中的Import
Oct 13 #Python
Python英文文章词频统计(14份剑桥真题词频统计)
Oct 13 #Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
You might like
eaglephp使用微信api接口开发微信框架
2014/01/09 PHP
PHP扩展程序实现守护进程
2015/04/16 PHP
php实现递归的三种基本方式
2020/07/04 PHP
浅谈ThinkPHP5.0版本和ThinkPHP3.2版本的区别
2017/06/17 PHP
PHP检查网站是否宕机的方法示例
2017/07/24 PHP
关于laravel-admin ueditor 集成并解决刷新的问题
2019/10/21 PHP
Jquery实现带动画效果的经典二级导航菜单
2013/03/22 Javascript
jquery 实现上下滚动效果示例代码
2013/08/09 Javascript
js判断两个日期是否相等的方法
2013/09/10 Javascript
简单的两种Extjs formpanel加载数据的方式
2013/11/09 Javascript
[原创]推荐10款最热门jQuery UI框架
2014/08/19 Javascript
如何利用JS通过身份证号获取当事人的生日、年龄、性别
2016/01/22 Javascript
使用jQuery的toggle()方法对HTML标签进行显示、隐藏的方法(示例)
2016/09/01 Javascript
轻松玩转BootstrapTable(后端使用SpringMVC+Hibernate)
2017/09/06 Javascript
react-native使用leanclound消息推送的方法
2018/08/06 Javascript
详解Vue-cli3.X使用px2rem遇到的问题
2019/08/09 Javascript
小程序新版订阅消息模板消息
2019/12/31 Javascript
云服务器部署Node.js项目的方法步骤(小白系列)
2020/03/23 Javascript
js实现表单项的全选、反选及删除操作示例
2020/06/05 Javascript
UEditor 自定义图片视频尺寸校验功能的实现代码
2020/10/20 Javascript
[05:31]DOTA2上海特级锦标赛主赛事第三日RECAP
2016/03/05 DOTA
[01:52]2020年DOTA2 TI10夏季活动预告片
2020/07/15 DOTA
使用python在校内发人人网状态(人人网看状态)
2014/02/19 Python
详解Python中的多线程编程
2015/04/09 Python
python爬取淘宝商品详情页数据
2018/02/23 Python
浅谈python正则的常用方法 覆盖范围70%以上
2018/03/14 Python
Python使用jsonpath-rw模块处理Json对象操作示例
2018/07/31 Python
树莓派极简安装OpenCv的方法步骤
2019/10/10 Python
Python脚本破解压缩文件口令实例教程(zipfile)
2020/06/14 Python
Python 串口通信的实现
2020/09/29 Python
HTML5声音录制/播放功能的实现代码
2018/05/03 HTML / CSS
HTML5 Blob 实现文件下载功能的示例代码
2019/11/29 HTML / CSS
公司新人试用期自我评价
2014/09/17 职场文书
2015年宣传思想工作总结
2015/05/22 职场文书
2015年乡镇食品安全工作总结
2015/10/22 职场文书
python中对列表的删除和添加方法详解
2022/02/24 Python