pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python模块学习 filecmp 文件比较
Aug 27 Python
python双向链表实现实例代码
Nov 21 Python
python回调函数的使用方法
Jan 23 Python
用Python实现一个简单的多线程TCP服务器的教程
May 05 Python
Python使用os模块和fileinput模块来操作文件目录
Jan 19 Python
python range()函数取反序遍历sequence的方法
Jun 25 Python
解决pycharm 误删掉项目文件的处理方法
Oct 22 Python
Python根据当前日期取去年同星期日期
Apr 14 Python
详解Numpy数组转置的三种方法T、transpose、swapaxes
May 27 Python
pycharm运行程序时看不到任何结果显示的解决
Feb 21 Python
PyQt5爬取12306车票信息程序的实现
May 14 Python
使用Python通过企业微信应用给企业成员发消息
Apr 18 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
用来给图片加水印的PHP类
2008/04/09 PHP
php防止伪造的数据从URL提交方法
2014/06/27 PHP
PHP命名空间简单用法示例
2018/12/28 PHP
Jquery插件之多图片异步上传
2010/10/20 Javascript
new Date()问题在ie8下面的处理方法
2014/07/31 Javascript
JavaScript知识点总结(六)之JavaScript判断变量数据类型
2016/05/31 Javascript
两行代码轻松搞定JavaScript日期验证
2016/08/03 Javascript
深入理解Node.js 事件循环和回调函数
2016/11/02 Javascript
angularjs实现首页轮播图效果
2017/04/14 Javascript
nodejs中sleep功能实现暂停几秒的方法
2017/07/12 NodeJs
JS 中document.write()的用法和清空的原因浅析
2017/12/04 Javascript
Vue在页面右上角实现可悬浮/隐藏的系统菜单
2018/05/04 Javascript
AngularJs分页插件使用详解
2018/06/30 Javascript
js实现简单选项卡功能
2020/03/23 Javascript
Echarts地图添加引导线效果(labelLine)
2019/09/30 Javascript
JS获取当前时间戳方法解析
2020/08/29 Javascript
js动态添加带圆圈序号列表的实例代码
2021/02/18 Javascript
[48:39]Ti4主赛事胜者组第一天 EG vs NEWBEE 2
2014/07/19 DOTA
利用Python如何生成hash值示例详解
2017/12/20 Python
Python装饰器(decorator)定义与用法详解
2018/02/09 Python
在python环境下运用kafka对数据进行实时传输的方法
2018/12/27 Python
python 利用pandas将arff文件转csv文件的方法
2019/02/12 Python
Django中使用 Closure Table 储存无限分级数据
2019/06/06 Python
简单了解python反射机制的一些知识
2019/07/13 Python
python 使用raw socket进行TCP SYN扫描实例
2020/05/05 Python
台湾线上百货零售购物平台:friDay购物
2017/08/18 全球购物
四年级语文教学反思
2014/02/05 职场文书
村干部培训方案
2014/05/02 职场文书
写求职信有哪些注意事项
2014/05/08 职场文书
反邪教标语
2014/06/23 职场文书
项目合作意向书模板
2014/07/29 职场文书
市场营销计划书范文
2015/01/16 职场文书
婚庆主持词大全
2015/06/30 职场文书
四年级作文之说明文作文
2019/10/14 职场文书
用Python进行栅格数据的分区统计和批量提取
2021/05/27 Python
Python实现双向链表
2022/05/25 Python