Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
利用Python中的mock库对Python代码进行模拟测试
Apr 16 Python
利用Python实现简单的相似图片搜索的教程
Apr 23 Python
2018年Python值得关注的开源库、工具和开发者(总结篇)
Jan 04 Python
浅谈Python中的作用域规则和闭包
Mar 20 Python
Python 迭代,for...in遍历,迭代原理与应用示例
Oct 12 Python
Python3离线安装Requests模块问题
Oct 13 Python
使用python实现多维数据降维操作
Feb 24 Python
Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作
Jun 06 Python
Python常用base64 md5 aes des crc32加密解密方法汇总
Nov 06 Python
Python的信号库Blinker用法详解
Dec 31 Python
Python 匹配文本并在其上一行追加文本
May 11 Python
如何利用python实现列表嵌套字典取值
Jun 10 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
PHP 抓取网页图片并且另存为的实现代码
2010/03/24 PHP
php下载文件的代码示例
2012/06/29 PHP
PHP实现的增强性mhash函数
2015/05/27 PHP
thinkPHP分组后模板无法加载问题解决方法
2016/07/12 PHP
PHP中快速生成随机密码的几种方式
2017/04/17 PHP
在laravel中实现ORM模型使用第二个数据库设置
2019/10/24 PHP
PHP7新增函数
2021/03/09 PHP
让JavaScript 轻松支持函数重载 (Part 1 - 设计)
2009/08/04 Javascript
jquery tab插件精简版分享
2011/09/10 Javascript
NodeJS 模块开发及发布详解分享
2012/03/07 NodeJs
jQuery 回调函数(callback)的使用和基础
2015/02/26 Javascript
javascript实现简单的页面右下角提示信息框
2015/07/31 Javascript
Avalon中文长字符截取、关键字符隐藏、自定义过滤器
2016/05/18 Javascript
在DWR中实现直接获取一个JAVA类的返回值的两种方法
2016/12/25 Javascript
AngularJS实现网站换肤实例
2021/02/19 Javascript
Bootstrap Table使用整理(二)
2017/06/09 Javascript
详解node nvm进行node多版本管理
2017/10/21 Javascript
解决Vue2.x父组件与子组件之间的双向绑定问题
2018/03/06 Javascript
关于Vue项目跨平台运行问题的解决方法
2018/09/18 Javascript
Python内置模块ConfigParser实现配置读写功能的方法
2018/02/12 Python
python实现全排列代码(回溯、深度优先搜索)
2020/02/26 Python
django Layui界面点击弹出对话框并请求逻辑生成分页的动态表格实例
2020/05/12 Python
python 3.8.3 安装配置图文教程
2020/05/21 Python
pytorch读取图像数据转成opencv格式实例
2020/06/02 Python
如何使用 Flask 做一个评论系统
2020/11/27 Python
为2021年的第一场雪锦上添花:用matplotlib绘制雪花和雪景
2021/01/05 Python
S’well Bottle保温杯官网:绝缘不锈钢水瓶
2018/05/09 全球购物
德国净水壶和滤芯品牌:波尔德PearlCo(家用净水器)
2020/04/29 全球购物
报关简历自我评价怎么写
2013/09/19 职场文书
微笑面对生活演讲稿
2014/09/23 职场文书
安全检查汇报材料
2014/12/26 职场文书
公证处委托书
2015/01/28 职场文书
法制教育主题班会
2015/08/13 职场文书
会计专业自荐信范文
2019/05/22 职场文书
创业计划书之餐饮馄饨店
2019/07/18 职场文书
Go语言入门exec的基本使用
2022/05/20 Golang