pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现在线程里运行scrapy的方法
Apr 07 Python
详解Django框架中的视图级缓存
Jul 23 Python
python2.7 mayavi 安装图文教程(推荐)
Jun 22 Python
使用python实现tcp自动重连
Jul 02 Python
Django自定义过滤器定义与用法示例
Mar 22 Python
python提取图像的名字*.jpg到txt文本的方法
May 10 Python
Python字符串、整数、和浮点型数相互转换实例
Aug 04 Python
Python中的CSV文件使用"with"语句的方式详解
Oct 16 Python
解决Python 命令行执行脚本时,提示导入的包找不到的问题
Jan 19 Python
Python迭代器协议及for循环工作机制详解
Jul 14 Python
使用tensorflow进行音乐类型的分类
Aug 14 Python
解决Ubuntu18中的pycharm不能调用tensorflow-gpu的问题
Sep 17 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
php 静态化实现代码
2009/03/20 PHP
php 获取SWF动画截图示例代码
2014/02/10 PHP
PHP 如何获取二维数组中某个key的集合
2014/06/03 PHP
PHP中使用GD库绘制折线图 折线统计图的绘制方法
2015/11/09 PHP
php redis实现文章发布系统(用户投票系统)
2017/03/04 PHP
获取Javscript执行函数名称的方法
2006/12/22 Javascript
jquery UI 1.72 之datepicker
2009/12/29 Javascript
jquery 插件学习(六)
2012/08/06 Javascript
利用js(jquery)操作Cookie的方法说明
2013/12/19 Javascript
js与运算符和或运算符的妙用
2014/02/14 Javascript
JavaScript实现的使用键盘控制人物走动实例
2014/08/27 Javascript
jquery过滤特殊字符',防sql注入的实现方法
2016/08/17 Javascript
原生JS实现不断变化的标签
2017/05/22 Javascript
Vue.js弹出模态框组件开发的示例代码
2017/07/26 Javascript
node.js+captchapng+jsonwebtoken实现登录验证示例
2017/08/17 Javascript
微信小程序实现聊天对话(文本、图片)功能
2018/07/06 Javascript
使用VScode 插件debugger for chrome 调试react源码的方法
2019/09/13 Javascript
使用vscode快速建立vue模板过程详解
2019/10/10 Javascript
Python中的自定义函数学习笔记
2014/09/23 Python
Python中的lstrip()方法使用简介
2015/05/19 Python
Python算法应用实战之队列详解
2017/02/04 Python
python开发简易版在线音乐播放器
2017/03/03 Python
Python实现在某个数组中查找一个值的算法示例
2018/06/27 Python
python 中文件输入输出及os模块对文件系统的操作方法
2018/08/27 Python
python保存字典和读取字典的实例代码
2019/07/07 Python
tensorflow实现训练变量checkpoint的保存与读取
2020/02/10 Python
Solaris操作系统的线程机制
2012/12/23 面试题
会计实习自我鉴定
2013/12/04 职场文书
秋游活动策划方案
2014/02/16 职场文书
公司办公室岗位职责
2014/03/19 职场文书
工伤事故赔偿协议书
2014/04/15 职场文书
银行反四风对照检查材料
2014/09/29 职场文书
2014年专项整治工作总结
2014/11/17 职场文书
大班下学期幼儿评语
2014/12/30 职场文书
2020年基层司法所建设情况调研报告
2019/11/30 职场文书
为什么node.js不适合大型项目
2021/04/28 Javascript