Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python获取文件后缀名及批量更新目录下文件后缀名的方法
Nov 11 Python
web.py在SAE中的Session问题解决方法(使用mysql存储)
Jun 24 Python
python脚本监控docker容器
Apr 27 Python
Python内置模块ConfigParser实现配置读写功能的方法
Feb 12 Python
django 通过ajax完成邮箱用户注册、激活账号的方法
Apr 17 Python
Python实现App自动签到领取积分功能
Sep 29 Python
pandas 数据归一化以及行删除例程的方法
Nov 10 Python
Python实现html转换为pdf报告(生成pdf报告)功能示例
May 04 Python
python实现银联支付和支付宝支付接入
May 07 Python
python 协程中的迭代器,生成器原理及应用实例详解
Oct 28 Python
详解python 中in 的 用法
Dec 12 Python
Python合并pdf文件的工具
Jul 01 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
当年上海收录机产品生产,进口和价格情况
2021/03/04 无线电
php 随机记录mysql rand()造成CPU 100%的解决办法
2010/05/18 PHP
php 地区分类排序算法
2013/07/01 PHP
php+ajax导入大数据时产生的问题处理
2014/06/11 PHP
PHP编程入门的基本语法知识点总结
2016/01/26 PHP
php实现的简单中文验证码功能示例
2017/01/03 PHP
PHP内置函数生成随机数实例
2019/01/18 PHP
帮助避免错误的Javascript陷阱清单
2009/05/31 Javascript
chrome原生方法之数组
2011/11/30 Javascript
Jquery实现图片放大镜效果的思路及代码(自写)
2013/10/18 Javascript
jquery实现图片按比例缩放示例
2014/07/01 Javascript
AngularJS内置指令
2015/02/04 Javascript
nodejs根据ip数组在百度地图中进行定位
2017/03/06 NodeJs
VueJs单页应用实现微信网页授权及微信分享功能示例
2017/07/26 Javascript
详解如何使用 vue-cli 开发多页应用
2017/12/16 Javascript
vue判断input输入内容全是空格的方法
2018/03/02 Javascript
layui 实现自动选择radio单选框(checked)的方法
2019/09/03 Javascript
[02:40]DOTA2英雄基础教程 巨牙海民
2013/12/23 DOTA
[51:20]完美世界DOTA2联赛PWL S2 Magma vs PXG 第一场 11.28
2020/12/01 DOTA
使用Python制作获取网站目录的图形化程序
2015/05/04 Python
python2.7+selenium2实现淘宝滑块自动认证功能
2018/02/24 Python
Python中str.join()简单用法示例
2018/03/20 Python
Python玩转PDF的各种骚操作
2019/05/06 Python
Python turtle库绘制菱形的3种方式小结
2019/11/23 Python
Python原始套接字编程实例解析
2020/01/29 Python
在django中使用apscheduler 执行计划任务的实现方法
2020/02/11 Python
opencv+python实现均值滤波
2020/02/19 Python
Pycharm2020.1安装无法启动问题即设置中文插件的方法
2020/08/07 Python
python绘图pyecharts+pandas的使用详解
2020/12/13 Python
Python如何实现Paramiko的二次封装
2021/01/30 Python
Html5中localStorage存储JSON数据并读取JSON数据的实现方法
2017/02/13 HTML / CSS
域名注册、建站工具、网页主机、SSL证书:Dynadot
2017/01/06 全球购物
村庄环境整治方案
2014/05/15 职场文书
2014年幼儿园安全工作总结
2014/11/10 职场文书
计算机实训心得体会
2016/01/14 职场文书
ThinkPHP5和ThinkPHP6的区别
2021/03/31 PHP