Python jieba结巴分词原理及用法解析


Posted in Python onNovember 05, 2020

1、简要说明

结巴分词支持三种分词模式,支持繁体字,支持自定义词典

2、三种分词模式

全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义

精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下

搜索引擎模式:在精简模式下,对长词再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '我去北京天安门广场跳舞'
  a = jieba.lcut(str1, cut_all=True) # 全模式
  print('全模式:{}'.format(a))
  b = jieba.lcut(str1, cut_all=False) # 精简模式
  print('精简模式:{}'.format(b))
  c = jieba.lcut_for_search(str1) # 搜索引擎模式
  print('搜索引擎模式:{}'.format(c))

运行

Python jieba结巴分词原理及用法解析

3、某个词语不能被分开

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '桃花侠大战菊花怪'
  b = jieba.lcut(str1, cut_all=False) # 精简模式
  print('精简模式:{}'.format(b))
  # 如果不把桃花侠分开
  jieba.add_word('桃花侠')
  d = jieba.lcut(str1) # 默认是精简模式
  print(d)

运行

Python jieba结巴分词原理及用法解析

4、 某个单词必须被分开

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  # HMM参数,默认为True
  '''HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,
  用来描述一个系统隐性状态的转移和隐性状态的表现概率。
  在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,
  其大致原理是:
  采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。
  通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
  '''
  str1 = '桃花侠大战菊花怪'
  b = jieba.lcut(str1, cut_all=False, HMM=False) # 精简模式,且不使用HMM模型
  print('精简模式:{}'.format(b))
  # 分开大战为大和战
  jieba.suggest_freq(('大', '战'), True)
  e = jieba.lcut(str1, HMM=False) # 不使用HMM模型
  print('分开:{}'.format(e))

运行

Python jieba结巴分词原理及用法解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Mac下Supervisor进程监控管理工具的安装与配置
Dec 16 Python
Python脚本实现格式化css文件
Apr 08 Python
浅谈Python爬取网页的编码处理
Nov 04 Python
python+pyqt5编写md5生成器
Mar 18 Python
Django模板Templates使用方法详解
Jul 19 Python
Python实现图片裁剪的两种方式(Pillow和OpenCV)
Oct 30 Python
python3反转字符串的3种方法(小结)
Nov 07 Python
wxPython多个窗口的基本结构
Nov 19 Python
Python解析多帧dicom数据详解
Jan 13 Python
Python如何使用turtle库绘制图形
Feb 26 Python
python3.8.1+selenium实现登录滑块验证功能
May 22 Python
python uuid生成唯一id或str的最简单案例
Jan 13 Python
Python根据字符串调用函数过程解析
Nov 05 #Python
python报错TypeError: ‘NoneType‘ object is not subscriptable的解决方法
Nov 05 #Python
Python利用matplotlib绘制折线图的新手教程
Nov 05 #Python
详解Django中异步任务之django-celery
Nov 05 #Python
Python Django路径配置实现过程解析
Nov 05 #Python
Python基于tkinter canvas实现图片裁剪功能
Nov 05 #Python
Python利用matplotlib绘制散点图的新手教程
Nov 05 #Python
You might like
全国FM电台频率大全 - 6 辽宁省
2020/03/11 无线电
php+dbfile开发小型留言本
2006/10/09 PHP
搜索引擎技术核心揭密
2006/10/09 PHP
php 正则 过滤html 的超链接
2009/06/02 PHP
Yii PHP Framework实用入门教程(详细介绍)
2013/06/18 PHP
编写Smarty插件在模板中直接加载数据的详细介绍
2013/06/26 PHP
php计算数组不为空元素个数的方法
2014/01/27 PHP
php版微信公众平台接口开发之智能回复开发教程
2016/09/22 PHP
phpfpm的作用和用法
2019/10/10 PHP
通过JAVAScript实现页面自适应
2007/01/19 Javascript
jQuery中append、insertBefore、after与insertAfter的简单用法与注意事项
2020/04/04 Javascript
js中如何把字符串转化为对象、数组示例代码
2013/07/17 Javascript
JavaScript新窗口与子窗口传值详解
2014/02/11 Javascript
nodejs中使用多线程编程的方法实例
2015/03/24 NodeJs
原生js结合html5制作简易的双色子游戏
2015/03/30 Javascript
简单谈谈javascript中的变量、作用域和内存问题
2015/08/30 Javascript
日常收藏的jquery技巧
2015/12/02 Javascript
jQuery中数据缓存$.data的用法及源码完全解析
2016/04/29 Javascript
完美解决input[type=number]无法显示非数字字符的问题
2017/02/28 Javascript
深入浅析javascript继承体系
2017/10/23 Javascript
JQuery 又谈ajax局部刷新
2017/11/27 jQuery
Angular学习笔记之集成三方UI框架、控件的示例
2018/03/23 Javascript
iview同时验证多个表单问题总结
2018/09/29 Javascript
checkbox在vue中的用法小结
2018/11/13 Javascript
分析python服务器拒绝服务攻击代码
2014/01/16 Python
python将音频进行变速的操作方法
2020/04/08 Python
CSS3不透明度实例讲解
2016/04/26 HTML / CSS
园艺师求职信
2014/04/27 职场文书
临床专业自荐信
2014/06/22 职场文书
退休党员个人对照检查材料思想汇报
2014/09/29 职场文书
2014年大学生村官工作总结
2014/11/19 职场文书
《惊弓之鸟》教学反思
2016/02/20 职场文书
python实现三阶魔方还原的示例代码
2021/04/28 Python
go 实现简易端口扫描的示例
2021/05/22 Golang
JavaScript中时间格式化新思路toLocaleString()
2021/11/07 Javascript
SqlServer常用函数及时间处理小结
2023/05/08 SQL Server