Python jiaba库的使用详解


Posted in Python onNovember 23, 2021

jiaba库的使用

jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分

1、jieba库的安装

全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba
  • 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
  • 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
  • 通过 import jieba 来引用

如下:全自动安装

Win+R ==>cmd

pip install jieba

安装时可能会出现pip版本错误

进入pip目录,更新即可

Python jiaba库的使用详解

进入pip目录,更新即可

python.exe -m pip install --upgrade pip

pyCharm 中安装:

打开 settings,搜索 Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索
jieba,点击安装即可

2、统计荷塘月色词频

荷塘月色.txt

这几天心里颇不宁静。今晚在院子里坐着乘凉,忽然想起日日走过的荷塘,在这满月的光里,总该另有一番样子吧。月亮渐渐地升高了,墙外马路上孩子们的欢笑,已经听不见了;妻在屋里拍着闰儿,迷迷糊糊地哼着眠歌。我悄悄地披了大衫,带上门出去。
沿着荷塘,是一条曲折的小煤屑路。这是一条幽僻的路;白天也少人走,夜晚更加寂寞。荷塘四周,长着许多树,蓊蓊(wěng)郁郁的。路的一旁,是些杨柳,和一些不知道名字的树。没有月光的晚上,这路上阴森森的,有些怕人。今晚却很好,虽然月光也还是淡淡的。
路上只我一个人,背着手踱(duó)着。这一片天地好像是我的;我也像超出了平常的自己,到了另一个世界里。我爱热闹,也爱冷静;爱群居,也爱独处。像今晚上,一个人在这苍茫的月下,什么都可以想,什么都可以不想,便觉是个自由的人。白天里一定要做的事,一定要说的话,现在都可不理。这是独处的妙处,我且受用这无边的荷香月色好了。
曲曲折折的荷塘上面,弥望的是田田的叶子。叶子出水很高,像亭亭的舞女的裙。层层的叶子中间,零星地点缀着些白花,有袅娜(niǎo,nuó)地开着的,有羞涩地打着朵儿的;正如一粒粒的明珠,又如碧天里的星星,又如刚出浴的美人。微风过处,送来缕缕清香,仿佛远处高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动,像闪电般,霎时传过荷塘的那边去了。叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉(mò)的流水,遮住了,不能见一些颜色;而叶子却更见风致了。
月光如流水一般,静静地泻在这一片叶子和花上。薄薄的青雾浮起在荷塘里。叶子和花仿佛在牛乳中洗过一样;又像笼着轻纱的梦。虽然是满月,天上却有一层淡淡的云,所以不能朗照;但我以为这恰是到了好处——酣眠固不可少,小睡也别有风味的。月光是隔了树照过来的,高处丛生的灌木,落下参差的斑驳的黑影,峭楞楞如鬼一般;弯弯的杨柳的稀疏的倩影,却又像是画在荷叶上。塘中的月色并不均匀;但光与影有着和谐的旋律,如梵婀(ē)玲(英语violin小提琴的译音)上奏着的名曲。
荷塘的四面,远远近近,高高低低都是树,而杨柳最多。这些树将一片荷塘重重围住;只在小路一旁,漏着几段空隙,像是特为月光留下的。树色一例是阴阴的,乍看像一团烟雾;但杨柳的丰姿,便在烟雾里也辨得出。树梢上隐隐约约的是一带远山,只有些大意罢了。树缝里也漏着一两点路灯光,没精打采的,是渴睡人的眼。这时候最热闹的,要数树上的蝉声与水里的蛙声;但热闹是他们的,我什么也没有。
忽然想起采莲的事情来了。采莲是江南的旧俗,似乎很早就有,而六朝时为盛;从诗歌里可以约略知道。采莲的是少年的女子,她们是荡着小船,唱着艳歌去的。采莲人不用说很多,还有看采莲的人。那是一个热闹的季节,也是一个风流的季节。梁元帝《采莲赋》里说得好:
于是妖童媛(yuàn)女,荡舟心许;鷁(yì)首徐回,兼传羽杯;櫂(zhào)将移而藻挂,船欲动而萍开。尔其纤腰束素,迁延顾步;夏始春余,叶嫩花初,恐沾裳而浅笑,畏倾船而敛裾(jū)。
可见当时嬉游的光景了。这真是有趣的事,可惜我们现在早已无福消受了。
于是又记起,《西州曲》里的句子:
采莲南塘秋,莲花过人头;低头弄莲子,莲子清如水。
今晚若有采莲人,这儿的莲花也算得“过人头”了;只不见一些流水的影子,是不行的。这令我到底惦着江南了。——这样想着,猛一抬头,不觉已是自己的门前;轻轻地推门进去,什么声息也没有了,妻已睡熟好久了。

中文虚词.txt

从、自从、自、打、到、往、在、由、向、于、至、趁、当、当着、沿着、顺着
按、按照、遵照、依照、靠、本着、用、通过、根据、据、拿、比
因、因为、由于、为、为了、为着
被、给、让、叫、归、由、把、将、管
对、对于、关于、跟、和、给、替、向、同、除了
同、和、跟、与、及、或、以及
而、而且、并、并且、或者
不但、不仅、虽然、但是、然而、如果、与其、因为、所以
的、得、地
着、了、过
也、这、里
似的、一样、一般
给、连、们、所
的、了、吧、呢、啊、着、嘛、呗、罢了、而已、也罢、也好、啦、嘞、喽、着呢
吗、么、呢、啊、吧
,。;()

代码

```python
import jieba
# 读取文件内容
def read_content():
    f = open("荷塘月色.txt", encoding='utf-8')#读取时要设置文件编码格式
    content = f.read()
    f.close()
    return content
# 打印信息
def print_info(values=[]):
    for item in values:
        print(item)
# 主函数
if __name__ == '__main__':
    # print_info(read_content())
    content = read_content()
    article = jieba.lcut(content)  # 分割字符为词list
    dic = {}
    for word in article:
        if word not in dic:
            dic[word] = 1
        else:
            dic[word] += 1
    swd = sorted(list(dic.items()), key=lambda lst: lst[1], reverse=True)  # 统计每个词出现次数,从高到第排序
    f1 = open('中文虚词.txt', encoding="utf-8")  # 排除那些虚词,连词,标点符号等
    stop_wds = f1.read()
    f1.close()
    for kword, times in swd:
        if kword not in stop_wds:  # 当前词未包含在排除的那些词里面,就输出现次数
            print(kword, times)

运行结果:

Python jiaba库的使用详解

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注三水点靠木的更多内容!

Python 相关文章推荐
Python中使用scapy模拟数据包实现arp攻击、dns放大攻击例子
Oct 23 Python
python 队列详解及实例代码
Oct 18 Python
python实现BackPropagation算法
Dec 14 Python
python3中获取文件当前绝对路径的两种方法
Apr 26 Python
Django开发的简易留言板案例详解
Dec 04 Python
python面试题小结附答案实例代码
Apr 11 Python
10行Python代码计算汽车数量的实现方法
Oct 23 Python
python爬虫模拟浏览器访问-User-Agent过程解析
Dec 28 Python
Python 支持向量机分类器的实现
Jan 15 Python
pyCharm 实现关闭代码检查
Jun 09 Python
解决PyCharm IDE环境下,执行unittest不生成测试报告的问题
Sep 03 Python
详解如何修改jupyter notebook的默认目录和默认浏览器
Jan 24 Python
python 中的jieba分词库
Nov 23 #Python
python周期任务调度工具Schedule使用详解
Nov 23 #Python
python百行代码实现汉服圈图片爬取
python可视化大屏库big_screen示例详解
python数据可视化JupyterLab实用扩展程序Mito
python入门学习关于for else的特殊特性讲解
Nov 20 #Python
Python标准库pathlib操作目录和文件
Nov 20 #Python
You might like
Zend Framework教程之Zend_Db_Table用法详解
2016/03/21 PHP
php数据库操作model类(使用__call方法)
2016/11/16 PHP
PHP实现 APP端微信支付功能
2018/06/22 PHP
用jquery实现下拉菜单效果的代码
2010/07/25 Javascript
node.js 一个简单的页面输出实现代码
2012/03/07 Javascript
jQuery Tools Dateinput使用介绍
2012/07/14 Javascript
JavaScript判断DOM何时加载完毕的技巧
2012/11/11 Javascript
JavaScript按位运算符的应用简析
2014/02/04 Javascript
javascript中一些util方法汇总
2015/06/10 Javascript
javascript图片预加载实例分析
2015/07/16 Javascript
JavaScript对HTML DOM使用EventListener进行操作
2015/10/21 Javascript
JavaScript快速切换繁体中文和简体中文的方法及网站支持简繁体切换的绝招
2016/03/07 Javascript
jQuery的图片轮播插件PgwSlideshow使用详解
2016/08/11 Javascript
jQuery插件HighCharts实现气泡图效果示例【附demo源码】
2017/03/13 Javascript
详解React Native网络请求fetch简单封装
2017/08/10 Javascript
js tab栏切换代码实例解析
2019/09/03 Javascript
JavaScript Date对象功能与用法学习记录
2020/04/28 Javascript
[05:06]TI4西雅图DOTA2前线报道 海涛密探LGD训练
2014/07/09 DOTA
[04:29]【TI9采访】OG.N0tail在胜者组决赛后接受采访
2019/08/25 DOTA
Python THREADING模块中的JOIN()方法深入理解
2015/02/18 Python
Python中字典创建、遍历、添加等实用操作技巧合集
2015/06/02 Python
Python基于time模块求程序运行时间的方法
2017/09/18 Python
分析Python读取文件时的路径问题
2018/02/11 Python
Django框架自定义session处理操作示例
2019/05/27 Python
 Alo Yoga官网:购买瑜伽服装
2018/06/17 全球购物
Java的for语句中break, continue和return的区别
2013/12/19 面试题
南京某公司笔试题
2013/01/27 面试题
大学在校生求职信范文
2013/11/21 职场文书
生物科学专业职业规划书范文
2014/02/11 职场文书
《小小雨点》教学反思
2014/02/18 职场文书
经济管理自荐书
2014/06/09 职场文书
大学第二课堂活动总结
2014/07/08 职场文书
雨花台导游词
2015/02/06 职场文书
新员工试用期自我评价
2015/03/10 职场文书
宇宙与人观后感
2015/06/05 职场文书
据Python爬虫不靠谱预测可知今年双十一销售额将超过6000亿元
2021/11/11 Python