Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python实现换行符转换的脚本的教程
Apr 16 Python
python使用mailbox打印电子邮件的方法
Apr 30 Python
python集合用法实例分析
May 30 Python
python开发之thread实现布朗运动的方法
Nov 11 Python
python实现kNN算法
Dec 20 Python
Python:Scrapy框架中Item Pipeline组件使用详解
Dec 27 Python
详谈Python3 操作系统与路径 模块(os / os.path / pathlib)
Apr 26 Python
Django csrf 验证问题的实现
Oct 09 Python
对python中的argv和argc使用详解
Dec 15 Python
python3.4 将16进制转成字符串的实例
Jun 12 Python
PyTorch 导数应用的使用教程
Aug 31 Python
Python入门学习之类的相关知识总结
May 25 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
php处理json时中文问题的解决方法
2011/04/12 PHP
探讨php中header的用法详解
2013/06/07 PHP
php二分查找二种实现示例
2014/03/12 PHP
PHP实现数组递归转义的方法
2014/08/28 PHP
完美解决thinkphp验证码出错无法显示的方法
2014/12/09 PHP
PHP生成指定随机字符串的简单实现方法
2015/04/01 PHP
微信接口生成带参数的二维码
2017/07/31 PHP
关于laravel后台模板laravel-admin select框的使用详解
2019/10/03 PHP
Javascript MD4
2006/12/20 Javascript
Mootools 1.2教程 同时进行多个形变动画
2009/09/15 Javascript
Js 代码中,ajax请求地址后加随机数防止浏览器缓存的原因
2013/05/07 Javascript
JS+CSS实现弹出全屏灰黑色透明遮罩效果的方法
2014/12/20 Javascript
javascript最基本的函数汇总
2015/06/25 Javascript
js事件驱动机制 浏览器兼容处理方法
2016/07/23 Javascript
基于iScroll实现下拉刷新和上滑加载效果
2017/07/18 Javascript
JS实现的简单标签点击切换功能示例
2017/09/21 Javascript
Vue登录主页动态背景短视频制作
2019/09/21 Javascript
VUE 单页面使用 echart 窗口变化时的用法
2020/07/30 Javascript
vuex的数据渲染与修改浅析
2020/11/26 Vue.js
python抓取某汽车网数据解析html存入excel示例
2013/12/04 Python
在python中pandas的series合并方法
2018/11/12 Python
Python设计模式之组合模式原理与用法实例分析
2019/01/11 Python
python协程之动态添加任务的方法
2019/02/19 Python
Django 中自定义 Admin 样式与功能的实现方法
2019/07/04 Python
python执行scp命令拷贝文件及文件夹到远程主机的目录方法
2019/07/08 Python
Python 仅获取响应头, 不获取实体的实例
2019/08/21 Python
python设置环境变量的作用整理
2020/02/17 Python
Python如何实现后端自定义认证并实现多条件登陆
2020/06/22 Python
linux mint中搜狗输入法导致pycharm卡死的问题
2020/10/28 Python
美国婚礼和派对礼品网站:Kate Aspen(新娘送礼会、迎婴派对)
2018/03/28 全球购物
桥梁工程专业求职信
2014/04/21 职场文书
贫困生助学金感谢信
2015/01/21 职场文书
留学推荐信英文范文
2015/03/26 职场文书
游戏开发中如何使用CocosCreator进行音效处理
2021/04/14 Javascript
Ajax实现三级联动效果
2021/10/05 Javascript
详解Redis在SpringBoot工程中的综合应用
2021/10/16 Redis