编程 Python

Python jieba库用法及实例解析

Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

- 中文文本需要通过分词获得单个的词语
- jieba是优秀的中文分词第三方库，需要额外安装
- jieba库提供三种分词模式，最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库，确定汉字之间的关联概率
- 汉字间概率大的组成词组，形成分词结果

- 除了分词，用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

- 精确模式：把文本精确的切分开，不存在冗余单词
- 全模式：把文本中所有可能的词语都扫描出来，有冗余
- 搜索引擎模式：在精确模式基础上，对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语，每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会发现得到的数据还是需要进一步处理，比如一些无用的词语，一些重复意思的词语。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python jieba库用法及实例解析

- Author -

王?

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python修改Excel数据的实例代码

Nov 01 Python

Python创建xml的方法

Mar 10 Python

python获取文件扩展名的方法

Jul 06 Python

python开发之基于thread线程搜索本地文件的方法

Nov 11 Python

详谈python http长连接客户端

Jun 12 Python

python numpy实现文件存取的示例代码

May 26 Python

django使用django-apscheduler 实现定时任务的例子

Jul 20 Python

python中的函数递归和迭代原理解析

Nov 14 Python

Django中Aggregation聚合的基本使用方法

Jul 09 Python

Pandas DataFrame求差集的示例代码

Dec 13 Python

python本地文件服务器实例教程

May 02 Python

python游戏开发Pygame框架

Apr 22 Python

Django框架安装方法图文详解

Nov 04 #Python

python定时任务 sched模块用法实例

Nov 04 #Python

python框架flask表单实现详解

Nov 04 #Python

pycharm显示远程图片的实现

Nov 04 #Python

使用PyCharm进行远程开发和调试的实现

Nov 04 #Python

python框架django项目部署相关知识详解

Nov 04 #Python

python tkinter控件布局项目实例

Nov 04 #Python

You might like

用JavaScript计算在UTF-8下存储字符串占用字节数

2013/08/08 Javascript

鼠标移到div,浮层显示明细,弹出层与div的上边距左边距重合(示例代码)

2013/12/14 Javascript

基于Node.js的强大爬虫能直接发布抓取的文章哦

2016/01/10 Javascript

JavaScript的React Web库的理念剖析及基础上手指南

2016/05/10 Javascript

JavaScript中数组slice和splice的对比小结

2016/09/22 Javascript

谈谈因Vue.js引发关于getter和setter的思考

2016/12/02 Javascript

JS中事件冒泡和事件捕获介绍

2016/12/13 Javascript

JavaScript 事件对内存和性能的影响

2017/01/22 Javascript

JS三目运算(三元运算)方法详解

2017/03/01 Javascript

jQuery遮罩层实例讲解

2017/05/11 jQuery

AngularJS中filter的使用实例详解

2017/08/25 Javascript

swiper.js插件实现pc端文本上下滑动功能示例

2018/12/03 Javascript

JavaScript高阶教程之“==”隐藏下的类型转换

2019/04/11 Javascript

layui的表单验证支持ajax判断用户名是否重复的实例

2019/09/06 Javascript

Vue实现验证码功能

2019/12/03 Javascript

python显示生日是星期几的方法

2015/05/27 Python

Python编程实现的图片识别功能示例

2017/08/03 Python

python图像处理入门（一）

2019/04/04 Python

python实现简单日期工具类

2019/04/24 Python

在Python中表示一个对象的方法

2019/06/25 Python

详解如何减少python内存的消耗

2019/08/09 Python

pytorch自定义二值化网络层方式

2020/01/07 Python

Django静态资源部署404问题解决方案

2020/05/11 Python

Python爬虫实现selenium处理iframe作用域问题

2021/01/27 Python

美味咖啡的顶级烘焙师：Cafe Britt

2018/03/15 全球购物

优衣库台湾官网：UNIQLO台湾

2019/02/01 全球购物

网站编辑求职信

2013/10/17 职场文书

运动会开幕式解说词

2014/02/05 职场文书

家长对孩子的感言

2014/03/10 职场文书

大学生求职信

2014/06/17 职场文书

商场促销活动总结

2014/07/10 职场文书

2014年检验科工作总结

2014/11/22 职场文书

汽车转让协议书范本

2014/12/07 职场文书

敬业奉献模范事迹材料

2014/12/24 职场文书

新生儿未入户证明

2015/06/23 职场文书

MySQL时间盲注的五种延时方法实现

2021/05/18 MySQL