编程 Python

Python基于jieba库进行简单分词及词云功能实现方法

Posted in Python onJune 16, 2018

本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法。分享给大家供大家参考，具体如下：

目标：

1.导入一个文本文件
2.使用jieba对文本进行分词
3.使用wordcloud包绘制词云

环境：

Python 3.6.0 |Anaconda 4.3.1 (64-bit)

工具：

jupyter notebook

从网上下载了一篇小说《老九门》，以下对这篇小说进行分词，并绘制词云图。

分词使用最流行的分词包jieba，参考：https://github.com/fxsjy/jieba

或点击此处本站下载jieba库。

词云使用wordcloud包，参考：https://github.com/amueller/word_cloud

或点击此处本站下载wordcloud库。

这两个包都不是anaconda自带的，需要按官网的步骤安装。

import wordcloud as wc
import jieba
import matplotlib.pyplot as plt
from scipy.misc import imread
%matplotlib inline
plt.rc('figure', figsize=(15, 15))

首先读取文件，保存到一个字符串对象中。

all_text = open(file='老九门.txt', encoding='utf-8').read()

查看一下字符串的内容，发现其中有很多多余的字符：'\n'、'\u3000'。

all_text

'\ufeff《盗墓笔记》中，一段与二月红有关的故事。\n《老九门》壹：二月红①\n丝帐许久没有换过了。\n\u3000\u3000她半夜入不了眠，睁开眼睛，便看到床边垂下的帐面，在月光下看着有一死暗淡。原来可是丝丝的带着光亮，好像最白的银拉出来的丝一般。\n\u3000\u3000果然再好的东西，也总是由好往坏了去。\n\u3000\u3000以往一过立秋，... ...<以下省略>

在分词之前先把这些多余字符剔除掉。

all_text = all_text.replace('\n', '' )
all_text = all_text.replace('\u3000', '')

下面先尝试做一次分词，把所有分词用空格分开，输出看一下分词的结果：

seg_list = jieba.cut(all_text, cut_all=False)
words =' '
for seg in seg_list:
  words = words + seg + ' '
print(words)

《盗墓笔记》中，一段与二月红有关的故事。《老九门》壹：二月红 ① 丝帐许久没有换过了。她半夜入不了眠，睁开眼睛，便看到床边垂下的帐面，在月光下看着有一死暗淡。原来可是丝丝的带着光亮，好像最白的银拉出来的丝一般。果然再好的东西，也总是由好往坏了去。以往一过立秋，她就会亲自拆下这块帐头，亲自去漂洗，她知道这东西的脾气，得小心伺候着，一寸一寸地过水。如今不让她下床，这东西没人伺候了，倒也显得越来越不值当被这么细心对待起来。也许，下一个立秋的时候，才有人敢动这个东西，但那个人，必然不是自己了。中午大夫和他说的那些话，虽然是在屋外，但是她还是听到了几分，自己的病，不知道还有多少日子可熬。她舒了口气，胸中的那丝痛楚似乎好了一些。多少日
... ...<以下省略>

从分词结果里可以发现，有一些固定词语，例如“盗墓笔记”、“老九门”、“二月红”、“张大佛爷”、“齐铁嘴”等书名、人名被分开了。在这篇小说的环境下，这些才成为固定词语，而默认的分词策略根据通常的认识来分词的。

针对这个情况，jieba有一个“用户词典”的机制，把用户认为应该成为整词的，放到词典里，在分词的时遇到它们，就会当作一个整体。

在目录下新建一个文本文件dick.txt，输入以下词语：

老九门
二月红
盗墓笔记
张大佛爷
解九爷
解九
狗五

以下为jieba引入这个词典文件，再做一次分词：

jieba.load_userdict('dict.txt')
all_seg = jieba.cut(all_text, cut_all=False)
all_word =' '
for seg in all_seg:
  all_word = all_word + seg + ' '
print(all_word)

《盗墓笔记》中，一段与二月红有关的故事。《老九门》壹：二月红 ① 丝帐许久没有换过了。她半夜入不了眠，睁开眼睛，便看到床边垂下的帐面，在月光下看着有一死暗淡。原来可是丝丝的带着光亮，好像最白的银拉出来的丝一般。果然再好的东西，也总是由好往坏了去。以往一过立秋，她就会亲自拆下这块帐头，亲自去漂洗，她知道这东西的脾气，得小心伺候着，一寸一寸地过水。如今不让她下床，这东西没人伺候了，倒也显得越来越不值当被这么细心对待起来。也许，下一个立秋的时候，才有人敢动这个东西，但那个人，必然不是自己了。中午大夫和他说的那些话，虽然是在屋外，但是她还是听到了几分，自己的病，不知道还有多少日子可熬。她舒了口气，胸中的那丝痛楚似乎好了一些。多少日子了？
... ...<以下省略>

从这个结果来看，就不会再把人名、书名分开了。

以下开始制作词云。

制作词云，使用的是wordcloud包，由两个参数需要特别注意，一个是字体，一个是背景图片。字体好理解，就不解释了。背景图片，是词云显示的背景形状。这里选用了一个心形图案。

Python基于jieba库进行简单分词及词云功能实现方法

以下是词云制作过程：

# 引入字体
font=r"C:\WINDOWS\Fonts\simhei.ttf"
#读取背景图片,生成矩阵
color_mask = imread("love.jpg")
# 生成词云对象，设置参数
cloud = wc.WordCloud( font_path=font,#设置字体
           background_color="black", #背景颜色
           max_words=2000,# 词云显示的最大词数
           mask=color_mask,#设置背景图片
           max_font_size=100, #字体最大值
           random_state=42)
# 绘制词云图
mywc = cloud.generate(all_word)
plt.imshow(mywc)

<matplotlib.image.AxesImage at 0x1ecebf5e588>

Python基于jieba库进行简单分词及词云功能实现方法

# 把词云图保存到磁盘文件中
mywc.to_file('老九门wordcloud.png')

<wordcloud.wordcloud.WordCloud at 0x1ece4b9bc88>

以上就是使用python进行分词，并绘制词云图的简单操作。对于jieba和wordcloud的更高级的使用方法，还需要进一步研究和学习。

希望本文所述对大家Python程序设计有所帮助。

Python基于jieba库进行简单分词及词云功能实现方法

- Author -

番番要吃肉

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python的print用法示例

Feb 11 Python

Python实现信用卡系统(支持购物、转账、存取钱)

Jun 24 Python

总结python爬虫抓站的实用技巧

Aug 09 Python

Python 爬虫学习笔记之正则表达式

Sep 21 Python

python排序函数sort()与sorted()的区别

Sep 18 Python

浅谈python 读excel数值为浮点型的问题

Dec 25 Python

Python读写文件基础知识点

Jun 10 Python

Django如何将URL映射到视图

Jul 29 Python

Python环境Pillow( PIL )图像处理工具使用解析

Sep 12 Python

Python守护进程实现过程详解

Feb 10 Python

Python使用ElementTree美化XML格式的操作

Mar 06 Python

Python的三个重要函数详解

Jan 18 Python

Python实现简单的文本相似度分析操作详解

Jun 16 #Python

Django跨域请求问题的解决方法示例

Jun 16 #Python

Python for循环生成列表的实例

Jun 15 #Python

Python把csv数据写入list和字典类型的变量脚本方法

Jun 15 #Python

Python对象属性自动更新操作示例

Jun 15 #Python

numpy使用fromstring创建矩阵的实例

Jun 15 #Python

详解Python 协程的详细用法使用和例子

Jun 15 #Python

You might like

PHP 截取字符串函数整理(支持gb2312和utf-8)

2010/02/16 PHP

PHP读取文件并可支持远程文件的代码分享

2012/10/03 PHP

PHP设置进度条的方法

2015/07/08 PHP

laravel实现简单用户权限的示例代码

2019/05/28 PHP

如何实现浏览器上的右键菜单

2006/07/10 Javascript

Jquery ThickBox插件使用心得(不建议使用)

2010/09/08 Javascript

javascript动态添加、修改、删除对象的属性与方法详解

2014/01/27 Javascript

js实现右下角提示框的方法

2015/02/03 Javascript

jQuery调用ajax请求的常见方法汇总

2015/03/24 Javascript

jQuery实现仿Alipay支付宝首页全屏焦点图切换特效

2015/05/04 Javascript

谈谈Jquery中的children find 的区别有哪些

2015/10/19 Javascript

在AngularJS框架中处理数据建模的方式解析

2016/03/05 Javascript

javascript 操作cookies详解及实例

2017/02/22 Javascript

Bootstrap实现的标签页内容切换显示效果示例

2017/05/25 Javascript

深入理解ES6中let和闭包

2018/02/22 Javascript

详解js模板引擎art template数组渲染的方法

2018/10/09 Javascript

Vue 引入AMap高德地图的实现代码

2019/04/29 Javascript

javascript canvas API内容整理

2020/02/16 Javascript

基于wxpython开发的简单gui计算器实例

2015/05/30 Python

python实现中文分词FMM算法实例

2015/07/10 Python

Python利用正则表达式匹配并截取指定子串及去重的方法

2015/07/30 Python

PyQt5创建一个新窗口的实例

2019/06/20 Python

Python3之不使用第三方变量,实现交换两个变量的值

2019/06/26 Python

python实现证件照换底功能

2019/08/20 Python

如何分离django中的媒体、静态文件和网页

2019/11/12 Python

python各种excel写入方式的速度对比

2020/11/10 Python

Python对excel的基本操作方法

2021/02/18 Python

英国品牌男装折扣网站：Brown Bag

2018/03/08 全球购物

经济学人订阅：The Economist

2018/07/19 全球购物

常用UNIX 命令(Linux的常用命令)

2015/12/26 面试题

物业管理员岗位职责范文

2013/11/25 职场文书

职工趣味运动会方案

2014/02/10 职场文书

事业单位鉴定材料

2014/05/25 职场文书

2014年路政工作总结

2014/12/10 职场文书

导游词之宁夏贺兰山岩画

2019/11/08 职场文书

oracle数据库去除重复数据

2022/05/20 Oracle