Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 正则式 概述及常用字符
May 07 Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 Python
Python中getattr函数和hasattr函数作用详解
Jun 14 Python
tensorflow 使用flags定义命令行参数的方法
Apr 23 Python
python操作mysql代码总结
Jun 01 Python
详解Numpy中的广播原则/机制
Sep 20 Python
python与字符编码问题
May 24 Python
python 的 scapy库,实现网卡收发包的例子
Jul 23 Python
pytorch torch.nn.AdaptiveAvgPool2d()自适应平均池化函数详解
Jan 03 Python
OpenCV Python实现拼图小游戏
Mar 23 Python
python中shell执行知识点
May 06 Python
Python爬虫入门有哪些基础知识点
Jun 02 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
优化使用mysql存储session的php代码
2008/01/10 PHP
php中删除字符串中最先出现某个字符的实现代码
2013/02/03 PHP
php正则匹配html中带class的div并选取其中内容的方法
2015/01/13 PHP
php事务回滚简单实现方法示例
2017/03/28 PHP
laravel实现上传图片并在页面显示的例子
2019/10/14 PHP
jQuery遍历json中多个map的方法
2015/02/12 Javascript
nodejs中使用多线程编程的方法实例
2015/03/24 NodeJs
谈谈Jquery中的children find 的区别有哪些
2015/10/19 Javascript
js实现选中页面文字将其分享到新浪微博
2015/11/05 Javascript
全面解析Bootstrap弹窗的实现方法
2015/12/01 Javascript
javascript获取图片的top N主色值方法详解
2018/01/26 Javascript
Vue和React组件之间的传值方式详解
2019/01/31 Javascript
JS中的函数与对象的创建方式
2019/05/12 Javascript
详解可以用在VS Code中的正则表达式小技巧
2019/05/14 Javascript
nodejs实现UDP组播示例方法
2019/11/04 NodeJs
微信小程序实现左滑删除效果
2020/11/18 Javascript
Python实现把回车符\r\n转换成\n
2015/04/23 Python
Go语言基于Socket编写服务器端与客户端通信的实例
2016/02/19 Python
Python排序算法实例代码
2017/08/10 Python
Python实现输出某区间范围内全部素数的方法
2018/05/02 Python
Python3.5基础之NumPy模块的使用图文与实例详解
2019/04/24 Python
python全栈要学什么 python全栈学习路线
2019/06/28 Python
Python pandas RFM模型应用实例详解
2019/11/20 Python
Python 实现劳拉游戏的实例代码(四连环、重力四子棋)
2021/03/03 Python
英国家庭和商业健身器材购物网站:Fitness Options
2018/07/05 全球购物
js正则匹配markdown里的图片标签的实现
2021/03/24 Javascript
创业计划书怎样才能打动风投
2014/01/01 职场文书
部队学习十八大感言
2014/01/11 职场文书
商务英语专业求职信范文
2014/01/28 职场文书
办公室文员岗位职责范本
2014/06/12 职场文书
个人反四风对照检查材料思想汇报
2014/09/23 职场文书
群众路线批评与自我批评发言稿
2014/10/16 职场文书
2014年卫生院工作总结
2014/12/03 职场文书
妇产科护理心得体会
2016/01/22 职场文书
送给小学生的暑假礼物!小学生必背99首古诗
2019/07/02 职场文书
python实现三次密码验证的示例
2021/04/29 Python