pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python快速查找算法应用实例
Sep 26 Python
python爬虫框架talonspider简单介绍
Jun 09 Python
Django Admin 实现外键过滤的方法
Sep 29 Python
Python实现列表删除重复元素的三种常用方法分析
Nov 24 Python
python装饰器常见使用方法分析
Jun 26 Python
tensorflow tf.train.batch之数据批量读取方式
Jan 20 Python
Python模块/包/库安装的六种方法及区别
Feb 24 Python
python opencv 图像边框(填充)添加及图像混合的实现方法(末尾实现类似幻灯片渐变的效果)
Mar 09 Python
Python基础类继承重写实现原理解析
Apr 03 Python
Python列表去重复项的N种方法(实例代码)
May 12 Python
Elasticsearch 基本查询和组合查询
Apr 19 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
谈谈PHP语法(2)
2006/10/09 PHP
一个简单的php加密解密函数(动态加密)
2013/06/19 PHP
php使用Jpgraph绘制3D饼状图的方法
2015/06/10 PHP
配置Nginx+PHP的正确思路与过程
2016/05/10 PHP
总结一些js自定义的函数
2006/08/05 Javascript
jquery 子窗口操作父窗口的代码
2009/09/21 Javascript
javascript 得到变量类型的函数
2010/05/19 Javascript
JQuery跨Iframe选择实现代码
2010/08/19 Javascript
12款经典的白富美型—jquery图片轮播插件—前端开发必备
2013/01/08 Javascript
JS给Array添加是否包含字符串的简单方法
2016/10/29 Javascript
JS实现数组去重复值的方法示例
2017/02/18 Javascript
angular2路由切换改变页面title的示例代码
2017/08/23 Javascript
vue-auto-focus: 控制自动聚焦行为的 vue 指令方法
2018/08/25 Javascript
微信小程序上传多图到服务器并获取返回的路径
2019/05/05 Javascript
分享一个vue项目“脚手架”项目的实现步骤
2019/05/26 Javascript
多个vue子路由文件自动化合并的方法
2019/09/03 Javascript
webpack常用配置总览(小结)
2019/11/18 Javascript
echarts实现晶体球面投影的实例教程
2020/10/10 Javascript
[02:34]DOTA2亚洲邀请赛 BG战队出场宣传片
2015/03/09 DOTA
python类定义的讲解
2013/11/01 Python
Python实现的NN神经网络算法完整示例
2018/06/19 Python
Python生成器generator用法示例
2018/08/10 Python
python基础梳理(一)(推荐)
2019/04/06 Python
selenium处理元素定位点击无效问题
2019/06/12 Python
解决Django中修改js css文件但浏览器无法及时与之改变的问题
2019/08/31 Python
一套软件测试笔试题
2014/07/25 面试题
架构师岗位职责
2013/11/18 职场文书
公司合作意向书
2014/04/01 职场文书
2014乡镇干部纪律作风整顿思想汇报
2014/09/13 职场文书
道德与公民自我评价
2015/03/09 职场文书
保险公司客户经理岗位职责
2015/04/09 职场文书
六一儿童节园长致辞
2015/07/31 职场文书
承诺书的内容有哪些,怎么写?
2019/06/21 职场文书
有关信念的名言语录集锦
2019/12/06 职场文书
vue修饰符.capture和.self的区别
2022/04/22 Vue.js
mysql 排序失效
2022/05/20 MySQL