Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python修改Excel数据的实例代码
Nov 01 Python
Python创建xml的方法
Mar 10 Python
python获取文件扩展名的方法
Jul 06 Python
python开发之基于thread线程搜索本地文件的方法
Nov 11 Python
详谈python http长连接客户端
Jun 12 Python
python numpy实现文件存取的示例代码
May 26 Python
django使用django-apscheduler 实现定时任务的例子
Jul 20 Python
python中的函数递归和迭代原理解析
Nov 14 Python
Django中Aggregation聚合的基本使用方法
Jul 09 Python
Pandas DataFrame求差集的示例代码
Dec 13 Python
python本地文件服务器实例教程
May 02 Python
python游戏开发Pygame框架
Apr 22 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
用JavaScript计算在UTF-8下存储字符串占用字节数
2013/08/08 Javascript
鼠标移到div,浮层显示明细,弹出层与div的上边距左边距重合(示例代码)
2013/12/14 Javascript
基于Node.js的强大爬虫 能直接发布抓取的文章哦
2016/01/10 Javascript
JavaScript的React Web库的理念剖析及基础上手指南
2016/05/10 Javascript
JavaScript中数组slice和splice的对比小结
2016/09/22 Javascript
谈谈因Vue.js引发关于getter和setter的思考
2016/12/02 Javascript
JS中事件冒泡和事件捕获介绍
2016/12/13 Javascript
JavaScript 事件对内存和性能的影响
2017/01/22 Javascript
JS三目运算(三元运算)方法详解
2017/03/01 Javascript
jQuery遮罩层实例讲解
2017/05/11 jQuery
AngularJS中filter的使用实例详解
2017/08/25 Javascript
swiper.js插件实现pc端文本上下滑动功能示例
2018/12/03 Javascript
JavaScript高阶教程之“==”隐藏下的类型转换
2019/04/11 Javascript
layui的表单验证支持ajax判断用户名是否重复的实例
2019/09/06 Javascript
Vue实现验证码功能
2019/12/03 Javascript
python显示生日是星期几的方法
2015/05/27 Python
Python编程实现的图片识别功能示例
2017/08/03 Python
python图像处理入门(一)
2019/04/04 Python
python实现简单日期工具类
2019/04/24 Python
在Python中表示一个对象的方法
2019/06/25 Python
详解如何减少python内存的消耗
2019/08/09 Python
pytorch自定义二值化网络层方式
2020/01/07 Python
Django静态资源部署404问题解决方案
2020/05/11 Python
Python爬虫实现selenium处理iframe作用域问题
2021/01/27 Python
美味咖啡的顶级烘焙师:Cafe Britt
2018/03/15 全球购物
优衣库台湾官网:UNIQLO台湾
2019/02/01 全球购物
网站编辑求职信
2013/10/17 职场文书
运动会开幕式解说词
2014/02/05 职场文书
家长对孩子的感言
2014/03/10 职场文书
大学生求职信
2014/06/17 职场文书
商场促销活动总结
2014/07/10 职场文书
2014年检验科工作总结
2014/11/22 职场文书
汽车转让协议书范本
2014/12/07 职场文书
敬业奉献模范事迹材料
2014/12/24 职场文书
新生儿未入户证明
2015/06/23 职场文书
MySQL时间盲注的五种延时方法实现
2021/05/18 MySQL