pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的Urllib库的基本使用教程
Apr 30 Python
Python实现比较扑克牌大小程序代码示例
Dec 06 Python
Django1.9 加载通过ImageField上传的图片方法
May 25 Python
python 限制函数执行时间,自己实现timeout的实例
Jan 12 Python
python面向对象之类属性和类方法案例分析
Dec 30 Python
Python求平面内点到直线距离的实现
Jan 19 Python
Python和Anaconda和Pycharm安装教程图文详解
Feb 04 Python
Pytorch中的自动求梯度机制和Variable类实例
Feb 29 Python
python解析xml文件方式(解析、更新、写入)
Mar 05 Python
在pycharm中创建django项目的示例代码
May 28 Python
通过Python pyecharts输出保存图片代码实例
Nov 25 Python
如何查看python关键字
Jan 17 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
简单的过滤字符串中的HTML标记
2006/12/25 PHP
php如何调用webservice应用介绍
2012/11/24 PHP
php出现web系统多域名登录失败的解决方法
2014/09/30 PHP
在laravel中实现ORM模型使用第二个数据库设置
2019/10/24 PHP
浅谈php常用的7大框架的优缺点
2020/07/20 PHP
推荐一些非常不错的javascript学习资源站点
2007/08/29 Javascript
jQuery EasyUI API 中文文档 - DataGrid数据表格
2011/11/17 Javascript
如何将网页表格内容导入excel
2014/02/18 Javascript
JS的encodeURI和java的URLDecoder.decode使用介绍
2014/05/08 Javascript
基于jQuery实现的旋转彩圈实例
2015/06/26 Javascript
jQuery实现点击查看大图并以弹框的形式居中
2016/08/08 Javascript
Bootstrap基本组件学习笔记之缩略图(13)
2016/12/08 Javascript
Bootstrap页面缩小变形的快速解决办法
2017/02/03 Javascript
浅谈在不使用ssr的情况下解决Vue单页面SEO问题(2)
2018/11/08 Javascript
viewer.js一个强大的基于jQuery的图像查看插件(支持旋转、缩放)
2020/04/01 jQuery
[00:43]DOTA2小紫本全民票选福利PA至宝全方位展示
2014/11/25 DOTA
python列表与元组详解实例
2013/11/01 Python
利用Python实现简单的相似图片搜索的教程
2015/04/23 Python
Python安装第三方库及常见问题处理方法汇总
2016/09/13 Python
python爬虫实现教程转换成 PDF 电子书
2017/02/19 Python
TensorFlow安装及jupyter notebook配置方法
2017/09/08 Python
Pycharm创建项目时如何自动添加头部信息
2019/11/14 Python
浅析Python数字类型和字符串类型的内置方法
2019/12/22 Python
详解python使用金山词霸的翻译功能(调试工具断点的使用)
2021/01/07 Python
CSS3实现红包抖动效果
2020/12/23 HTML / CSS
鲜为人知的HTML5语音合成功能
2019/05/17 HTML / CSS
html5 worker 实例(一) 为什么测试不到效果
2013/06/24 HTML / CSS
Web Service面试题:如何搭建Axis2的开发环境
2012/06/20 面试题
这段代码难道不该打印出56吗
2013/02/27 面试题
西门豹教学反思
2014/02/04 职场文书
电焊工工作岗位职责
2014/02/06 职场文书
中学校园广播稿
2015/08/18 职场文书
高效课堂教学反思
2016/02/24 职场文书
spring boot中nativeQuery的用法
2021/07/26 Java/Android
利用For循环遍历Python字典的三种方法实例
2022/03/25 Python
vue使用element-ui按需引入
2022/05/20 Vue.js