Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Win7上搭建Cocos2d-x 3.1.1开发环境
Jul 03 Python
python中引用与复制用法实例分析
Jun 04 Python
Python 序列的方法总结
Oct 18 Python
python实现将多个文件分配到多个文件夹的方法
Jan 07 Python
python django生成迁移文件的实例
Aug 31 Python
python中bytes和str类型的区别
Oct 21 Python
python3 pillow模块实现简单验证码
Oct 31 Python
简单了解python数组的基本操作
Nov 26 Python
基于SQLAlchemy实现操作MySQL并执行原生sql语句
Jun 10 Python
python属于哪种语言
Aug 16 Python
python获取百度热榜链接的实例方法
Aug 25 Python
Python直接赋值及深浅拷贝原理详解
Sep 05 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
PHP开源开发框架ZendFramework使用中常见问题说明及解决方案
2014/06/12 PHP
php中print(),print_r(),echo()的区别详解
2014/12/01 PHP
php实现多站点共用session实现单点登录的方法详解
2019/09/18 PHP
laravel model模型处理之修改查询或修改字段时的类型格式案例
2019/10/17 PHP
Ucren Virtual Desktop V2.0
2006/11/07 Javascript
解析jquery获取父窗口的元素
2013/06/26 Javascript
GridView中获取被点击行中的DropDownList和TextBox中的值
2013/07/18 Javascript
js,jquery滚动/跳转页面到指定位置的实现思路
2014/06/03 Javascript
在Ubuntu系统上安装Ghost博客平台的教程
2015/06/17 Javascript
关于javascript中dataset的问题小结
2015/11/16 Javascript
Perl Substr()函数及函数的应用
2015/12/16 Javascript
玩转JavaScript OOP - 类的实现详解
2016/06/08 Javascript
layer实现弹窗提交信息
2016/12/12 Javascript
JS实现图片高斯模糊切换效果的焦点图实例
2017/01/21 Javascript
React数据传递之组件内部通信的方法
2017/12/31 Javascript
vue二选一tab栏切换新做法实现
2021/01/19 Vue.js
[03:10]超级美酒第四天 fy拉比克秀 大合集
2018/06/05 DOTA
Python linecache.getline()读取文件中特定一行的脚本
2008/09/06 Python
压缩包密码破解示例分享(类似典破解)
2014/01/17 Python
用Python制作在地图上模拟瘟疫扩散的Gif图
2015/03/31 Python
python爬虫之urllib,伪装,超时设置,异常处理的方法
2018/12/19 Python
CentOS6.9 Python环境配置(python2.7、pip、virtualenv)
2019/05/06 Python
python list数据等间隔抽取并新建list存储的例子
2019/11/27 Python
详解pandas绘制矩阵散点图(scatter_matrix)的方法
2020/04/23 Python
查看keras的默认backend实现方式
2020/06/19 Python
饮料业务员岗位职责
2013/12/15 职场文书
诚信承诺书范文
2014/03/27 职场文书
婚礼秀策划方案
2014/05/19 职场文书
校园元旦活动总结
2014/07/09 职场文书
2014年纠风工作总结
2014/12/08 职场文书
骨干教师事迹材料
2014/12/17 职场文书
学生逃课万能检讨书2000字
2015/02/17 职场文书
2015年精神文明建设工作总结
2015/04/21 职场文书
关于迟到的检讨书
2015/05/06 职场文书
奥特曼十大神器:奥特手镯在榜,第一是贝利亚的神器
2022/03/18 日漫
拙作再改《我的收音机情缘》
2022/04/05 无线电