Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用Tkinter显示网络图片的方法
Apr 24 Python
关于Django外键赋值问题详解
Aug 13 Python
python 列表降维的实例讲解
Jun 28 Python
python-itchat 统计微信群、好友数量,及原始消息数据的实例
Feb 21 Python
Python 通过打码平台实现验证码的实现
May 13 Python
Django模型中字段属性choice使用说明
Mar 30 Python
Python闭包与装饰器原理及实例解析
Apr 30 Python
Python操作Excel把数据分给sheet
May 20 Python
python中tab键是什么意思
Jun 18 Python
python db类用法说明
Jul 07 Python
python 将列表里的字典元素合并为一个字典实例
Sep 01 Python
python绘制趋势图的示例
Sep 17 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
php实现获取文章内容第一张图片的方法
2014/11/04 PHP
PHP统计目录大小的自定义函数分享
2014/11/18 PHP
织梦sitemap地图实时推送给百度的教程
2015/08/03 PHP
php 时间time与日期date之间的使用详解及区别
2016/11/07 PHP
JQuery toggle使用分析
2009/11/16 Javascript
JavaScript NaN和Infinity特殊值 [译]
2012/09/20 Javascript
JQuery在页面中添加和除移DOM示例代码
2013/06/24 Javascript
onmouseover和onmouseout的一些问题思考
2013/08/14 Javascript
javascript异步编程的4种方法
2014/02/19 Javascript
Dojo获取下拉框的文本和值实例代码
2016/05/27 Javascript
内容滑动切换效果jquery.hwSlide.js插件封装
2016/07/07 Javascript
JS监听微信、支付宝等移动app及浏览器的返回、后退、上一页按钮的事件方法
2016/08/05 Javascript
JS中精巧的自动柯里化实现方法
2017/12/12 Javascript
解决Nodejs全局安装模块后找不到命令的问题
2018/05/15 NodeJs
深入浅析AngularJs模版与v-bind
2018/07/06 Javascript
vue-router之实现导航切换过渡动画效果
2019/10/31 Javascript
TypeScript高级用法的知识点汇总
2019/12/17 Javascript
小程序自定义导航栏兼容适配所有机型(附完整案例)
2020/04/26 Javascript
js实现九宫格布局效果
2020/05/28 Javascript
vue实现分页的三种效果
2020/06/23 Javascript
Python多进程机制实例详解
2015/07/02 Python
Python使用poplib模块和smtplib模块收发电子邮件的教程
2016/07/02 Python
Python利用openpyxl库遍历Sheet的实例
2018/05/03 Python
详解Python 协程的详细用法使用和例子
2018/06/15 Python
python中的itertools的使用详解
2020/01/13 Python
TensorFlow的环境配置与安装教程详解(win10+GeForce GTX1060+CUDA 9.0+cuDNN7.3+tensorflow-gpu 1.12.0+python3.5.5)
2020/06/22 Python
详解python变量与数据类型
2020/08/25 Python
html5跳转小程序wx-open-launch-weapp踩坑
2020/12/02 HTML / CSS
澳大利亚设计的优质鞋类和适合澳大利亚生活方式的服装:Rivers
2019/04/23 全球购物
全球烹饪课程的领先预订平台:Cookly
2020/01/28 全球购物
大学四年职业生涯规划书范文
2014/01/02 职场文书
高中运动会入场词
2014/02/14 职场文书
银行贷款承诺书
2014/03/29 职场文书
应届毕业生求职信范文
2014/05/08 职场文书
优秀共青团员事迹材料
2014/12/25 职场文书
2015年销售助理工作总结
2015/05/11 职场文书