Python jiaba库的使用详解


Posted in Python onNovember 23, 2021

jiaba库的使用

jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分

1、jieba库的安装

全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba
  • 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
  • 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
  • 通过 import jieba 来引用

如下:全自动安装

Win+R ==>cmd

pip install jieba

安装时可能会出现pip版本错误

进入pip目录,更新即可

Python jiaba库的使用详解

进入pip目录,更新即可

python.exe -m pip install --upgrade pip

pyCharm 中安装:

打开 settings,搜索 Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索
jieba,点击安装即可

2、统计荷塘月色词频

荷塘月色.txt

这几天心里颇不宁静。今晚在院子里坐着乘凉,忽然想起日日走过的荷塘,在这满月的光里,总该另有一番样子吧。月亮渐渐地升高了,墙外马路上孩子们的欢笑,已经听不见了;妻在屋里拍着闰儿,迷迷糊糊地哼着眠歌。我悄悄地披了大衫,带上门出去。
沿着荷塘,是一条曲折的小煤屑路。这是一条幽僻的路;白天也少人走,夜晚更加寂寞。荷塘四周,长着许多树,蓊蓊(wěng)郁郁的。路的一旁,是些杨柳,和一些不知道名字的树。没有月光的晚上,这路上阴森森的,有些怕人。今晚却很好,虽然月光也还是淡淡的。
路上只我一个人,背着手踱(duó)着。这一片天地好像是我的;我也像超出了平常的自己,到了另一个世界里。我爱热闹,也爱冷静;爱群居,也爱独处。像今晚上,一个人在这苍茫的月下,什么都可以想,什么都可以不想,便觉是个自由的人。白天里一定要做的事,一定要说的话,现在都可不理。这是独处的妙处,我且受用这无边的荷香月色好了。
曲曲折折的荷塘上面,弥望的是田田的叶子。叶子出水很高,像亭亭的舞女的裙。层层的叶子中间,零星地点缀着些白花,有袅娜(niǎo,nuó)地开着的,有羞涩地打着朵儿的;正如一粒粒的明珠,又如碧天里的星星,又如刚出浴的美人。微风过处,送来缕缕清香,仿佛远处高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动,像闪电般,霎时传过荷塘的那边去了。叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉(mò)的流水,遮住了,不能见一些颜色;而叶子却更见风致了。
月光如流水一般,静静地泻在这一片叶子和花上。薄薄的青雾浮起在荷塘里。叶子和花仿佛在牛乳中洗过一样;又像笼着轻纱的梦。虽然是满月,天上却有一层淡淡的云,所以不能朗照;但我以为这恰是到了好处——酣眠固不可少,小睡也别有风味的。月光是隔了树照过来的,高处丛生的灌木,落下参差的斑驳的黑影,峭楞楞如鬼一般;弯弯的杨柳的稀疏的倩影,却又像是画在荷叶上。塘中的月色并不均匀;但光与影有着和谐的旋律,如梵婀(ē)玲(英语violin小提琴的译音)上奏着的名曲。
荷塘的四面,远远近近,高高低低都是树,而杨柳最多。这些树将一片荷塘重重围住;只在小路一旁,漏着几段空隙,像是特为月光留下的。树色一例是阴阴的,乍看像一团烟雾;但杨柳的丰姿,便在烟雾里也辨得出。树梢上隐隐约约的是一带远山,只有些大意罢了。树缝里也漏着一两点路灯光,没精打采的,是渴睡人的眼。这时候最热闹的,要数树上的蝉声与水里的蛙声;但热闹是他们的,我什么也没有。
忽然想起采莲的事情来了。采莲是江南的旧俗,似乎很早就有,而六朝时为盛;从诗歌里可以约略知道。采莲的是少年的女子,她们是荡着小船,唱着艳歌去的。采莲人不用说很多,还有看采莲的人。那是一个热闹的季节,也是一个风流的季节。梁元帝《采莲赋》里说得好:
于是妖童媛(yuàn)女,荡舟心许;鷁(yì)首徐回,兼传羽杯;櫂(zhào)将移而藻挂,船欲动而萍开。尔其纤腰束素,迁延顾步;夏始春余,叶嫩花初,恐沾裳而浅笑,畏倾船而敛裾(jū)。
可见当时嬉游的光景了。这真是有趣的事,可惜我们现在早已无福消受了。
于是又记起,《西州曲》里的句子:
采莲南塘秋,莲花过人头;低头弄莲子,莲子清如水。
今晚若有采莲人,这儿的莲花也算得“过人头”了;只不见一些流水的影子,是不行的。这令我到底惦着江南了。——这样想着,猛一抬头,不觉已是自己的门前;轻轻地推门进去,什么声息也没有了,妻已睡熟好久了。

中文虚词.txt

从、自从、自、打、到、往、在、由、向、于、至、趁、当、当着、沿着、顺着
按、按照、遵照、依照、靠、本着、用、通过、根据、据、拿、比
因、因为、由于、为、为了、为着
被、给、让、叫、归、由、把、将、管
对、对于、关于、跟、和、给、替、向、同、除了
同、和、跟、与、及、或、以及
而、而且、并、并且、或者
不但、不仅、虽然、但是、然而、如果、与其、因为、所以
的、得、地
着、了、过
也、这、里
似的、一样、一般
给、连、们、所
的、了、吧、呢、啊、着、嘛、呗、罢了、而已、也罢、也好、啦、嘞、喽、着呢
吗、么、呢、啊、吧
,。;()

代码

```python
import jieba
# 读取文件内容
def read_content():
    f = open("荷塘月色.txt", encoding='utf-8')#读取时要设置文件编码格式
    content = f.read()
    f.close()
    return content
# 打印信息
def print_info(values=[]):
    for item in values:
        print(item)
# 主函数
if __name__ == '__main__':
    # print_info(read_content())
    content = read_content()
    article = jieba.lcut(content)  # 分割字符为词list
    dic = {}
    for word in article:
        if word not in dic:
            dic[word] = 1
        else:
            dic[word] += 1
    swd = sorted(list(dic.items()), key=lambda lst: lst[1], reverse=True)  # 统计每个词出现次数,从高到第排序
    f1 = open('中文虚词.txt', encoding="utf-8")  # 排除那些虚词,连词,标点符号等
    stop_wds = f1.read()
    f1.close()
    for kword, times in swd:
        if kword not in stop_wds:  # 当前词未包含在排除的那些词里面,就输出现次数
            print(kword, times)

运行结果:

Python jiaba库的使用详解

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注三水点靠木的更多内容!

Python 相关文章推荐
Python cx_freeze打包工具处理问题思路及解决办法
Feb 13 Python
实例解析Python设计模式编程之桥接模式的运用
Mar 02 Python
基于Python的接口测试框架实例
Nov 04 Python
Python进阶学习之特殊方法实例详析
Dec 01 Python
python使用Matplotlib绘制分段函数
Sep 25 Python
python按时间排序目录下的文件实现方法
Oct 17 Python
Python设计模式之建造者模式实例详解
Jan 17 Python
解决python2 绘图title,xlabel,ylabel出现中文乱码的问题
Jan 29 Python
Python使用字典的嵌套功能详解
Feb 27 Python
python scatter散点图用循环分类法加图例
Mar 19 Python
Python中typing模块与类型注解的使用方法
Aug 05 Python
python实现密度聚类(模板代码+sklearn代码)
Apr 27 Python
python 中的jieba分词库
Nov 23 #Python
python周期任务调度工具Schedule使用详解
Nov 23 #Python
python百行代码实现汉服圈图片爬取
python可视化大屏库big_screen示例详解
python数据可视化JupyterLab实用扩展程序Mito
python入门学习关于for else的特殊特性讲解
Nov 20 #Python
Python标准库pathlib操作目录和文件
Nov 20 #Python
You might like
php微信公众平台开发类实例
2015/04/01 PHP
PHP输出一个等腰三角形的方法
2015/05/12 PHP
php实现的xml操作类
2016/01/15 PHP
JS中==与===操作符的比较
2009/03/21 Javascript
小议javascript 设计模式 推荐
2009/10/28 Javascript
JavaScript 操作table,可以新增行和列并且隔一行换背景色代码分享
2013/07/05 Javascript
js实现页面转发功能示例代码
2013/08/05 Javascript
js中的数组Array定义与sort方法使用示例
2013/08/29 Javascript
纯JS实现根据CSS的class选择DOM
2014/03/22 Javascript
网页实时显示服务器时间和javscript自运行时钟
2014/06/09 Javascript
nodejs实现的一个简单聊天室功能分享
2014/12/06 NodeJs
JS+CSS实现另类带提示效果的竖向导航菜单
2015/10/15 Javascript
javascript常用经典算法实例详解
2015/11/25 Javascript
基于ajax与msmq技术的消息推送功能实现代码
2016/12/26 Javascript
JS排序之快速排序详解
2017/04/08 Javascript
vue axios登录请求拦截器
2018/04/02 Javascript
原生Vue 实现右键菜单组件功能
2019/12/16 Javascript
vue中全局路由守卫中替代this操作(this.$store/this.$vux)
2020/07/24 Javascript
Vue使用v-viewer实现图片预览
2020/10/21 Javascript
Python中http请求方法库汇总
2016/01/06 Python
Python Socket使用实例
2017/12/18 Python
30秒轻松实现TensorFlow物体检测
2018/03/14 Python
python3利用tcp实现文件夹远程传输
2018/07/28 Python
python 循环数据赋值实例
2019/12/02 Python
VS2019+python3.7+opencv4.1+tensorflow1.13配置详解
2020/04/16 Python
Python 中如何使用 virtualenv 管理虚拟环境
2021/01/21 Python
拥有超过850家商店的美国在线派对商店:Party City
2018/10/21 全球购物
职业教育毕业生求职信
2013/11/09 职场文书
暑期社会实践学生的自我评价
2014/01/09 职场文书
人力资源部门的主要职能
2014/02/22 职场文书
工作散漫检讨书
2014/09/16 职场文书
旷课检讨书范文
2015/01/27 职场文书
2015年英语教研组工作总结
2015/05/23 职场文书
用人单位的规章制度,怎样制定才是有效的?
2019/07/09 职场文书
jQuery实现影院选座订座效果
2021/04/13 jQuery
教你怎么用python实现字符串转日期
2021/05/24 Python