pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python调用机器喇叭发出蜂鸣声(Beep)的方法
Mar 23 Python
Python生成不重复随机值的方法
May 11 Python
浅谈Django学习migrate和makemigrations的差别
Jan 18 Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 Python
tensorflow使用神经网络实现mnist分类
Sep 08 Python
python数据结构学习之实现线性表的顺序
Sep 28 Python
python实现学员管理系统
Feb 26 Python
解决Django加载静态资源失败的问题
Jul 28 Python
使用Python实现Wake On Lan远程开机功能
Jan 22 Python
Python 程序报错崩溃后如何倒回到崩溃的位置(推荐)
Jun 23 Python
导致python中import错误的原因是什么
Jul 01 Python
PYTHON InceptionV3模型的复现详解
May 06 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
通过对php一些服务器端特性的配置加强php的安全
2006/10/09 PHP
用php过滤危险html代码的函数
2008/07/22 PHP
8个出色的WordPress SEO插件收集
2011/02/26 PHP
php fputcsv命令 写csv文件遇到的小问题(多维数组连接符)
2011/05/24 PHP
PHP 设计模式之观察者模式介绍
2012/02/22 PHP
php设计模式之策略模式实例分析【星际争霸游戏案例】
2020/03/26 PHP
php实现对短信验证码发送次数的限制实例讲解
2021/03/04 PHP
线路分流自动跳转代码;希望对大家有用!
2006/12/02 Javascript
THREE.JS入门教程(6)创建自己的全景图实现步骤
2013/01/25 Javascript
js对图片base64编码字符串进行解码并输出图像示例
2014/03/17 Javascript
理解Javascript的call、apply
2015/12/16 Javascript
EasyUI Pagination 分页的两种做法小结
2016/07/09 Javascript
JavaScript判断数组是否存在key的简单实例
2016/08/03 Javascript
js实现简单的获取验证码按钮效果
2017/03/03 Javascript
angular6.0使用教程之父组件通过url传递id给子组件的方法
2018/06/30 Javascript
JS实现倒序输出的几种常用方法示例
2019/04/13 Javascript
详解auto-vue-file:一个自动创建vue组件的包
2019/04/26 Javascript
vue swipeCell滑动单元格(仿微信)的实现示例
2020/09/14 Javascript
零基础写python爬虫之爬虫的定义及URL构成
2014/11/04 Python
Python常用随机数与随机字符串方法实例
2015/04/09 Python
简单了解Django模板的使用
2017/12/20 Python
python爬取m3u8连接的视频
2018/02/28 Python
[原创]Python入门教程5. 字典基本操作【定义、运算、常用函数】
2018/11/01 Python
在Python 不同级目录之间模块的调用方法
2019/01/19 Python
python 并发编程 非阻塞IO模型原理解析
2019/08/20 Python
使用Python将xmind脑图转成excel用例的实现代码(一)
2020/10/12 Python
Python+Xlwings 删除Excel的行和列
2020/12/19 Python
毕业生在校学习的自我评价分享
2013/10/08 职场文书
计算机求职信
2013/12/01 职场文书
婚礼主持结束词
2014/03/13 职场文书
产品质量承诺范本
2014/03/31 职场文书
司法局群众路线教育实践活动整改措施思想汇报
2014/10/13 职场文书
2014年专项整治工作总结
2014/11/17 职场文书
党员活动总结
2015/02/04 职场文书
简单了解 MySQL 中相关的锁
2021/05/25 MySQL
CSS实现九宫格布局(自适应)的示例代码
2022/02/12 HTML / CSS