Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现apahce网站日志分析示例
Apr 02 Python
Python创建xml的方法
Mar 10 Python
python模块之StringIO使用示例
Apr 08 Python
详解Python进程间通信之命名管道
Aug 28 Python
python3监控CentOS磁盘空间脚本
Jun 21 Python
python十进制和二进制的转换方法(含浮点数)
Jul 07 Python
python实现图片批量压缩程序
Jul 23 Python
解决python xx.py文件点击完之后一闪而过的问题
Jun 24 Python
对python中的os.getpid()和os.fork()函数详解
Aug 08 Python
python3中编码获取网页的实例方法
Nov 16 Python
详解python的xlwings库读写excel操作总结
Feb 26 Python
Python实现排序方法常见的四种
Jul 15 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
德生PL990的分析评价
2021/03/02 无线电
php学习笔记 面向对象的构造与析构方法
2011/06/13 PHP
使用php判断浏览器的类型和语言的函数代码
2013/02/28 PHP
php 在windows下配置虚拟目录的方法介绍
2013/06/26 PHP
PHP实现文件下载断点续传详解
2014/10/15 PHP
Yii2增加验证码步骤详解
2016/04/25 PHP
深入讲解PHP的对象注入(Object Injection)
2017/03/01 PHP
如何直接访问php实例对象中的private属性详解
2017/10/12 PHP
QUnit jQuery的TDD框架
2010/11/04 Javascript
JS 操作符整理[推荐收藏]
2011/11/15 Javascript
JS中实现replaceAll的方法(实例代码)
2013/11/12 Javascript
用原生JS获取CLASS对象(很简单实用)
2014/10/15 Javascript
Ajax中解析Json的两种方法对比分析
2015/06/25 Javascript
js实现非常棒的弹出div
2016/10/06 Javascript
详解springmvc 接收json对象的两种方式
2016/12/06 Javascript
Vue项目全局配置页面缓存之按需读取缓存的实现详解
2018/08/01 Javascript
JS实现网页时钟特效
2020/03/25 Javascript
Python ljust rjust center输出
2008/09/06 Python
用python分割TXT文件成4K的TXT文件
2009/05/23 Python
python实现JAVA源代码从ANSI到UTF-8的批量转换方法
2015/08/10 Python
python中实现精确的浮点数运算详解
2017/11/02 Python
python、java等哪一门编程语言适合人工智能?
2017/11/13 Python
python利用ffmpeg进行录制屏幕的方法
2019/01/10 Python
Python循环实现n的全排列功能
2019/09/16 Python
Python常见反爬虫机制解决方案
2020/06/01 Python
canvas实现有递增动画的环形进度条的实现方法
2019/07/10 HTML / CSS
AmazeUI 折叠面板的实现代码
2020/08/17 HTML / CSS
资深生产主管自我评价
2013/09/22 职场文书
出口公司经理求职简历中的自我评价
2013/10/13 职场文书
广场舞大赛策划方案
2014/05/31 职场文书
小学感恩教育活动总结
2014/07/07 职场文书
建筑安全生产责任书
2014/07/22 职场文书
入党群众意见范文
2015/06/02 职场文书
OpenCV-Python模板匹配人眼的实例
2021/06/08 Python
《模拟人生4》推出新补丁 “婚礼奇缘”DLC终于得到修复
2022/04/03 其他游戏
vue cli4中mockjs在dev环境和build环境的配置详情
2022/04/06 Vue.js