Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用中文正则表达式匹配指定中文字符串的方法示例
Jan 20 Python
Python numpy 常用函数总结
Dec 07 Python
Python实现GUI学生信息管理系统
Apr 05 Python
Python一句代码实现找出所有水仙花数的方法
Nov 13 Python
python语言基本语句用法总结
Jun 11 Python
Win10系统下安装labelme及json文件批量转化方法
Jul 30 Python
详解django实现自定义manage命令的扩展
Aug 13 Python
Python 多线程其他属性以及继承Thread类详解
Aug 28 Python
pygame实现俄罗斯方块游戏(基础篇3)
Oct 29 Python
Node.js 和 Python之间该选择哪个?
Aug 05 Python
浅谈matplotlib默认字体设置探索
Feb 03 Python
解决pytorch读取自制数据集出现过的问题
May 31 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
PHP制作图型计数器的例子
2006/10/09 PHP
网友原创的PHP模板类代码
2008/09/07 PHP
浅谈php扩展imagick
2014/06/02 PHP
codeigniter实现get分页的方法
2015/07/10 PHP
浅析Yii2 gridview实现批量删除教程
2016/04/22 PHP
PHP+MySQL实现消息队列的方法分析
2018/05/09 PHP
ThinkPHP框架实现定时执行任务的两种方法分析
2018/09/04 PHP
完美解决JS中汉字显示乱码问题(已解决)
2006/12/27 Javascript
如何在指定的地方插入html内容和文本内容
2013/12/23 Javascript
基于jQuery实现的旋转彩圈实例
2015/06/26 Javascript
JavaScript中字符串拼接的基本方法
2015/07/07 Javascript
在Ubuntu系统上安装Node.JS的教程
2015/10/15 Javascript
jQuery删除当前节点元素
2016/12/07 Javascript
jquery实现图片跟随鼠标的实例
2017/10/17 jQuery
微信小程序使用radio显示单选项功能【附源码下载】
2017/12/11 Javascript
微信小程序实现YDUI的ScrollTab组件
2018/02/02 Javascript
Vue CLI 3搭建vue+vuex最全分析(推荐)
2018/09/27 Javascript
原生JS实现自定义下拉单选选择框功能
2018/10/12 Javascript
vue2.0实现的tab标签切换效果(内容可自定义)示例
2019/02/11 Javascript
layui扩展上传组件模拟进度条的方法
2019/09/23 Javascript
jQuery实现简单弹幕效果
2019/11/28 jQuery
微信小程序自定义弹出层效果
2020/05/26 Javascript
[47:38]Optic vs VGJ.S 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/20 DOTA
Python爬虫包BeautifulSoup简介与安装(一)
2018/06/17 Python
Python统计python文件中代码,注释及空白对应的行数示例【测试可用】
2018/07/25 Python
Python编程深度学习计算库之numpy
2018/12/28 Python
python字符串中匹配数字的正则表达式
2019/07/03 Python
python图形开发GUI库pyqt5的详细使用方法及各控件的属性与方法
2020/02/14 Python
python安装和pycharm环境搭建设置方法
2020/05/27 Python
利用Python将图片中扭曲矩形的复原
2020/09/07 Python
Hobbs官方网站:英国奢华女性时尚服装
2020/02/22 全球购物
学习雷锋月活动总结
2014/07/03 职场文书
2014年财务工作总结范文
2014/11/11 职场文书
先进集体事迹材料范文
2014/12/25 职场文书
停电通知范文
2015/04/16 职场文书
2016年国庆节宣传标语
2015/11/25 职场文书