pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python time模块用法实例详解
Sep 11 Python
python面向对象_详谈类的继承与方法的重载
Jun 07 Python
基于Python代码编辑器的选用(详解)
Sep 13 Python
Python实现多属性排序的方法
Dec 05 Python
python正则表达式匹配[]中间为任意字符的实例
Dec 25 Python
Python docx库用法示例分析
Feb 16 Python
python实现抠图给证件照换背景源码
Aug 20 Python
Python列表的切片实例讲解
Aug 20 Python
Python爬虫如何应对Cloudflare邮箱加密
Jun 24 Python
python多线程爬取西刺代理的示例代码
Jan 30 Python
pytorch锁死在dataloader(训练时卡死)
May 28 Python
Python内置数据类型中的集合详解
Mar 18 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
php 网上商城促销设计实例代码
2012/02/17 PHP
php获取当前时间的毫秒数的方法
2014/01/26 PHP
PHP中单例模式与工厂模式详解
2017/02/17 PHP
PHP+Ajax实现的无刷新分页功能详解【附demo源码下载】
2017/07/03 PHP
php数值计算num类简单操作示例
2020/05/15 PHP
JavaScript使用技巧精萃[代码非常实用]
2008/11/21 Javascript
jQuery筛选器children()案例详解(图文)
2013/02/17 Javascript
JS、DOM和JQuery之间的关系示例分析
2014/04/09 Javascript
js实现字符串的16进制编码不加密
2014/04/25 Javascript
jQuery弹出框代码封装DialogHelper
2015/01/30 Javascript
AngularJs实现ng1.3+表单验证
2015/12/10 Javascript
jQuery Validate表单验证深入学习
2015/12/18 Javascript
[原创]SyntaxHighlighter自动识别并加载脚本语言
2017/02/07 Javascript
Bootstrap与Angularjs的模态框实例代码
2017/08/03 Javascript
JavaScript调试之console.log调试的一个小技巧分享
2017/08/07 Javascript
Vue 2.5 Level E 发布了: 新功能特性一览
2017/10/24 Javascript
JS实现的计数排序与基数排序算法示例
2017/12/04 Javascript
ES6基础之数组和对象的拓展实例详解
2019/08/22 Javascript
vue3.0实现插件封装
2020/12/14 Vue.js
在Python中操作列表之List.append()方法的使用
2015/05/20 Python
python ftp 按目录结构上传下载的实现代码
2018/09/12 Python
Python基础知识点 初识Python.md
2019/05/14 Python
python识别图像并提取文字的实现方法
2019/06/28 Python
python使用tomorrow实现多线程的例子
2019/07/20 Python
python 图像处理画一个正弦函数代码实例
2019/09/10 Python
Python GUI编程学习笔记之tkinter界面布局显示详解
2020/03/30 Python
Python用户自定义异常的实现
2020/12/25 Python
HTML5 placeholder属性详解
2016/06/22 HTML / CSS
HTML5 新表单类型示例代码
2018/03/20 HTML / CSS
HTML5中使用json对象的实例代码
2018/09/10 HTML / CSS
行政前台岗位职责
2013/12/04 职场文书
房地产资料员岗位职责
2014/07/02 职场文书
效能风暴心得体会
2014/09/04 职场文书
副乡长民主生活会个人对照检查材料思想汇报
2014/10/01 职场文书
检讨书范文
2015/01/27 职场文书
《灰雀》教学反思
2016/02/19 职场文书