Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python映射列表实例分析
Jan 26 Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 Python
在Python中过滤Windows文件名中的非法字符方法
Jun 10 Python
教你一步步利用python实现贪吃蛇游戏
Jun 27 Python
Python之数据序列化(json、pickle、shelve)详解
Aug 30 Python
Python测试线程应用程序过程解析
Dec 31 Python
python numpy数组复制使用实例解析
Jan 10 Python
详解python 破解网站反爬虫的两种简单方法
Feb 09 Python
pycharm运行程序时看不到任何结果显示的解决
Feb 21 Python
python 逆向爬虫正确调用 JAR 加密逻辑
Jan 12 Python
用Python提取PDF表格的方法
Apr 11 Python
pyqt5打包成exe可执行文件的方法
May 14 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
分页显示Oracle数据库记录的类之二
2006/10/09 PHP
使用eAccelerator加密PHP程序
2008/10/03 PHP
yii操作cookie实例简介
2014/07/09 PHP
codeigniter上传图片不能正确识别图片类型问题解决方法
2014/07/25 PHP
风吟的小型JavaScirpt库 (FY.JS).
2010/03/09 Javascript
JavaScript利用构造函数和原型的方式模拟C#类的功能
2014/03/06 Javascript
jquery的each方法使用示例分享
2014/03/25 Javascript
JavaScript实现动态添加,删除行的方法实例详解
2015/07/02 Javascript
js实现网页收藏功能
2015/12/17 Javascript
JS实现的适合做faq或menu滑动效果示例
2016/11/17 Javascript
JS实战篇之收缩菜单表单布局
2016/12/10 Javascript
小程序实现搜索界面 小程序实现推荐搜索列表效果
2019/05/18 Javascript
如何使用webpack打包一个库library的方法步骤
2019/12/18 Javascript
vue项目中在可编辑div光标位置插入内容的实现代码
2020/01/07 Javascript
Vue2.0 ES6语法降级ES5的操作
2020/10/30 Javascript
vue 实现图片懒加载功能
2020/12/31 Vue.js
three.js如何实现3D动态文字效果
2021/03/03 Javascript
python 解析html之BeautifulSoup
2009/07/07 Python
Python中使用装饰器时需要注意的一些问题
2015/05/11 Python
python并发和异步编程实例
2018/11/15 Python
简单了解python高阶函数map/reduce
2019/06/28 Python
python实现马丁策略的实例详解
2021/01/15 Python
如何利用CSS3制作3D效果文字具体实现样式
2013/05/02 HTML / CSS
国外软件测试工程师面试题
2016/12/09 面试题
黄继光的英雄事迹材料
2014/02/13 职场文书
优秀共青团员事迹材料
2014/12/25 职场文书
维稳承诺书
2015/01/20 职场文书
2015年五一劳动节演讲稿
2015/03/18 职场文书
2015年反洗钱工作总结
2015/04/25 职场文书
2015年结对帮扶工作总结
2015/05/04 职场文书
违规违纪检讨书范文
2015/05/06 职场文书
活动经费申请报告
2015/05/15 职场文书
党小组考察意见
2015/06/02 职场文书
幼儿园卫生保健制度
2015/08/05 职场文书
幼儿园安全教育随笔
2015/08/14 职场文书
导游词之塘栖古镇
2019/12/04 职场文书