pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Django 跨域请求处理的示例代码
May 02 Python
使用matplotlib画散点图的方法
May 25 Python
Python3.6基于正则实现的计算器示例【无优化简单注释版】
Jun 14 Python
Python统计一个字符串中每个字符出现了多少次的方法【字符串转换为列表再统计】
May 05 Python
pandas的连接函数concat()函数的具体使用方法
Jul 09 Python
Python使用lambda表达式对字典排序操作示例
Jul 25 Python
使用coverage统计python web项目代码覆盖率的方法详解
Aug 05 Python
解决python多行注释引发缩进错误的问题
Aug 23 Python
Python对接支付宝支付自实现功能
Oct 10 Python
线程安全及Python中的GIL原理分析
Oct 29 Python
解决pytorch 保存模型遇到的问题
Mar 03 Python
教你漂亮打印Pandas DataFrames和Series
May 29 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
ie和firefox不兼容的解决方法集合
2009/04/28 Javascript
jQuery 打造动态渐变按钮 详细图文教程
2010/04/25 Javascript
JavaScript判断窗口是否最小化的代码(跨浏览器)
2010/08/01 Javascript
javascript oop开发滑动(slide)菜单控件
2010/08/25 Javascript
JQuery扩展插件Validate 2通过参数设置验证规则
2011/09/05 Javascript
jquery.artwl.thickbox.js  一个非常简单好用的jQuery弹出层插件
2012/03/01 Javascript
js replace 与replaceall实例用法详解
2013/08/03 Javascript
js中document.write使用过程中的一点疑问解答
2014/03/20 Javascript
常见浏览器多长时间会提示“脚本运行时间过长”总结
2014/04/29 Javascript
jQuery实现“扫码阅读”功能
2015/01/21 Javascript
如何使用HTML5地理位置定位功能
2015/04/27 Javascript
JS简单实现点击复制链接的方法
2016/08/03 Javascript
bootstrap表单按回车会自动刷新页面的解决办法
2017/03/08 Javascript
jQuery Plupload上传插件的使用
2017/04/19 jQuery
移动端网页开发调试神器Eruda的介绍与使用技巧
2017/10/30 Javascript
详解vue+vuex+koa2开发环境搭建及示例开发
2018/01/22 Javascript
浅谈vue父子组件怎么传值
2018/07/21 Javascript
javascript实现异形滚动轮播
2019/11/28 Javascript
云服务器部署Node.js项目的方法步骤(小白系列)
2020/03/23 Javascript
vue.js watch经常失效的场景与解决方案
2021/01/07 Vue.js
[01:07]DOTA2次级职业联赛 - Fpb战队宣传片
2014/12/01 DOTA
Python的高级Git库 Gittle
2014/09/22 Python
Python2随机数列生成器简单实例
2017/09/04 Python
儿童学习python的一些小技巧
2018/05/27 Python
详解Django中六个常用的自定义装饰器
2018/07/04 Python
浅谈Python大神都是这样处理XML文件的
2019/05/31 Python
Python3 中作为一等对象的函数解析
2019/12/11 Python
基于MUI框架使用HTML5实现的二维码扫描功能
2018/03/01 HTML / CSS
俄罗斯运动鞋商店:Sneakerhead
2018/05/10 全球购物
美国唇部护理专家:Sara Happ
2019/06/19 全球购物
水果连锁超市创业计划书
2014/01/24 职场文书
创业者是否需要商业计划书?
2014/02/07 职场文书
中学生的1000字检讨书
2014/10/11 职场文书
学习三严三实心得体会
2014/10/13 职场文书
结婚堵门保证书
2015/05/08 职场文书
JS一分钟在github+Jekyll的博客中添加访问量功能的实现
2021/04/03 Javascript