Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
利用Psyco提升Python运行速度
Dec 24 Python
Python使用Supervisor来管理进程的方法
May 28 Python
基于wxpython实现的windows GUI程序实例
May 30 Python
Python设计模式之MVC模式简单示例
Jan 10 Python
pandas.read_csv参数详解(小结)
Jun 21 Python
如何在python中写hive脚本
Nov 08 Python
python numpy生成等差数列、等比数列的实例
Feb 25 Python
新建文件时Pycharm中自动设置头部模板信息的方法
Apr 17 Python
python属于软件吗
Jun 18 Python
python 常用日期处理-- datetime 模块的使用
Sep 02 Python
python实现定时发送邮件
Dec 23 Python
Python可变集合和不可变集合的构造方法大全
Dec 06 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
用PHP和ACCESS写聊天室(十)
2006/10/09 PHP
php的mssql数据库连接类实例
2014/11/28 PHP
php实现用已经过去多长时间的方式显示时间
2015/06/05 PHP
JavaScript的9个陷阱及评点分析
2008/05/16 Javascript
kindeditor编辑器点中图片滚动条往上顶的bug
2015/07/05 Javascript
十分钟带你快速了解React16新特性
2017/11/10 Javascript
详解Webpack多环境代码打包的方法
2018/08/03 Javascript
jQuery 操作 HTML 元素和属性的方法
2018/11/12 jQuery
使用JQuery自动完成插件Auto Complete详解
2019/06/18 jQuery
微信小程序—setTimeOut定时器的问题及解决
2019/07/26 Javascript
Vue中qs插件的使用详解
2020/02/07 Javascript
浅谈JavaScript中你可能不知道URL构造函数的属性
2020/07/13 Javascript
[01:07:57]DOTA2-DPC中国联赛 正赛 Ehome vs Magma BO3 第二场 1月19日
2021/03/11 DOTA
Python中for循环详解
2014/01/17 Python
在Python中关于中文编码问题的处理建议
2015/04/08 Python
Python中的二维数组实例(list与numpy.array)
2018/04/13 Python
python 爬虫 批量获取代理ip的实例代码
2018/05/22 Python
Opencv+Python 色彩通道拆分及合并的示例
2018/12/08 Python
分享Python切分字符串的一个不错方法
2018/12/14 Python
Python+opencv 实现图片文字的分割的方法示例
2019/07/04 Python
在OpenCV里实现条码区域识别的方法示例
2019/12/04 Python
python读取配置文件方式(ini、yaml、xml)
2020/04/09 Python
Python实现计算图像RGB均值方式
2020/06/04 Python
python使用requests库爬取拉勾网招聘信息的实现
2020/11/20 Python
墨西哥巴士车票在线购买:ClickBus
2018/03/27 全球购物
英国领先的鞋类零售商和顶级品牌的官方零售商:Wynsors
2020/02/17 全球购物
如何用Python输出一个Fibonacci数列
2016/08/28 面试题
成人教育自我鉴定
2013/11/01 职场文书
《槐乡五月》教学反思
2014/04/25 职场文书
计算机求职信
2014/07/02 职场文书
项目技术负责人岗位职责
2015/04/13 职场文书
手术室消毒隔离制度
2015/08/05 职场文书
员工考勤管理制度
2015/08/06 职场文书
Matlab求解数组中的最大值及它所在的具体位置
2021/04/16 Python
mysql5.6主从搭建以及不同步问题详解
2021/12/04 MySQL
Python获取指定日期是"星期几"的6种方法
2022/03/13 Python