Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python黑魔法@property装饰器的使用技巧解析
Jun 16 Python
Python模拟鼠标点击实现方法(将通过实例自动化模拟在360浏览器中自动搜索python)
Aug 23 Python
Python3中类、模块、错误与异常、文件的简易教程
Nov 20 Python
Django使用Celery异步任务队列的使用
Mar 13 Python
python中的tcp示例详解
Dec 09 Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 Python
Python3+Pycharm+PyQt5环境搭建步骤图文详解
May 29 Python
详解python解压压缩包的五种方法
Jul 05 Python
应用OpenCV和Python进行SIFT算法的实现详解
Aug 21 Python
python生成特定分布数的实例
Dec 05 Python
详解python tkinter模块安装过程
Jan 06 Python
python如何操作mysql
Aug 17 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
CodeIgniter配置之SESSION用法实例分析
2016/01/19 PHP
PHP基于PDO调用sqlserver存储过程通用方法【基于Yii框架】
2017/10/07 PHP
[原创]用javascript实现检测指定目录是否存在的方法
2008/01/12 Javascript
jQuery入门问答 整理的几个常见的初学者问题
2010/02/22 Javascript
javascript 得到变量类型的函数
2010/05/19 Javascript
Jquery插件之多图片异步上传
2010/10/20 Javascript
js 取时间差去掉周六周日实现代码
2012/12/25 Javascript
location对象的属性和方法应用(解析URL)
2013/04/12 Javascript
jquery预览图片实现鼠标放上去显示实际大小
2014/01/16 Javascript
javascript批量修改文件编码格式的方法
2015/01/27 Javascript
javascript操作select元素实例分析
2015/03/27 Javascript
浅谈jQuery 中的事件冒泡和阻止默认行为
2016/05/28 Javascript
微信小程序 详解下拉加载与上拉刷新实现方法
2017/01/13 Javascript
springMVC + easyui + $.ajaxFileUpload实现文件上传注意事项
2017/04/23 Javascript
bootstrap+jQuery实现的动态进度条功能示例
2017/05/25 jQuery
vue2.0 和 animate.css的结合使用
2017/12/12 Javascript
JS随机数产生代码分享
2018/02/24 Javascript
vue2.0 + element UI 中 el-table 数据导出Excel的方法
2018/03/02 Javascript
js实现自定义右键菜单
2020/05/18 Javascript
[13:38]2015国际邀请赛中国战队出征仪式
2015/05/29 DOTA
[02:50]【扭转乾坤,只此一招】DOTA2全新版本永雾林渊开启新篇章
2020/12/24 DOTA
简单解决Python文件中文编码问题
2015/11/22 Python
在python3环境下的Django中使用MySQL数据库的实例
2017/08/29 Python
python机器学习案例教程——K最近邻算法的实现
2017/12/28 Python
python 实现绘制整齐的表格
2019/11/18 Python
用python拟合等角螺线的实现示例
2019/12/27 Python
PyTorch预训练Bert模型的示例
2020/11/17 Python
python中子类与父类的关系基础知识点
2021/02/02 Python
启动一个线程是用run()还是start()
2016/12/25 面试题
预备党员党校学习自我评价分享
2013/11/12 职场文书
大学生找工作推荐信范文
2013/11/28 职场文书
学习党章思想汇报
2014/01/07 职场文书
2021年pycharm的最新安装教程及基本使用图文详解
2021/04/03 Python
浅谈mysql执行过程以及顺序
2021/05/12 MySQL
Go 语言中 20 个占位符的整理
2021/10/16 Golang
【D4DJ】美少女DJ企划 动画将于明年冬季开播第2季
2022/04/11 日漫