Python实现Wordcloud生成词云图的示例


Posted in Python onMarch 30, 2020

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概。

首先贴出一张词云图(以哈利波特小说为例):

Python实现Wordcloud生成词云图的示例

在生成词云图之前,首先要做一些准备工作

1.安装结巴分词库

pip install jieba

Python实现Wordcloud生成词云图的示例

Python中的分词模块有很多,他们的功能也都是大同小异,我们安装的结巴分词 是当前使用的最多的类型。

下面我来简单介绍一下结巴分词的用法

结巴分词的分词模式分为三种:

(1)全模式:把句子中所有的可以成词的词语都扫描出来, 速度快,但是不能解决歧义问题

(2)精确模式:将句子最精确地切开,适合文本分析

(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

下面用一个简单的例子来看一下三种模式的分词区别:

import jieba
 
 # 全模式:把句子中所有的可以成词的词语都扫描出来, 速度快,但是不能解决歧义问题
 text = "哈利波特是一常优秀的文学作品"
 seg_list = jieba.cut(text, cut_all=True)
 print(u"[全模式]: ", "/ ".join(seg_list))
 
 # 精确模式:将句子最精确地切开,适合文本分析
 seg_list = jieba.cut(text, cut_all=False)
 print(u"[精确模式]: ", "/ ".join(seg_list))
 
 # 默认是精确模式
 seg_list = jieba.cut(text)
 print(u"[默认模式]: ", "/ ".join(seg_list))
 
 # 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

下面是对这句话的分词方式:

Python实现Wordcloud生成词云图的示例

通过这三种分词模式可以看出,这些分词模式并没有很好的划分出“哈利波特”这个专有名词,这是因为在结巴分词的字典中并没有记录这个名词,所以需要我们手动添加自定义字典

添加自定义字典:找一个方便引用的位置              (下图的路径是我安装的位置),新建文本文档(后缀名为.txt),将想添加的词输入进去(注意输入格式),保存并退出

Python实现Wordcloud生成词云图的示例

在上面的代码中加入自定义字典的路径,再点击运行

jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")

分词结果,可以看出“哈利波特”这个词已经被识别出来了

Python实现Wordcloud生成词云图的示例

结巴分词还有另一个禁用词的输出结果

stopwords = {}.fromkeys(['优秀', '文学作品'])
 
 #添加禁用词之后
 seg_list = jieba.cut(text)
 final = ''
 for seg in seg_list:
   if seg not in stopwords:
       final += seg
 seg_list_new = jieba.cut(final)
 print(u"[切割之后]: ", "/ ".join(seg_list_new))

可以看到输出结果中并没有“优秀”和“文学作品”两个词

Python实现Wordcloud生成词云图的示例

结巴分词还有很多比较复杂的操作,具体的可以去官网查看,我就不再过多的赘述了

下面我们正式开始词云的制作

首先下载模块,这里我所使用的环境是Anaconda,由于Anaconda中包含很多常用的扩展包,所以这里只需要下载wordcloud。若使用的环境不是Anaconda,则另需安装numpy和PIL模块

pip install wordcloud

Python实现Wordcloud生成词云图的示例

然后我们需要找一篇文章并使用结巴分词将文章分成词语的形式

# 分词模块
 def cut(text):
   # 选择分词模式
   word_list = jieba.cut(text,cut_all= True)
   # 分词后在单独个体之间加上空格
   result = " ".join(word_list)
   # 返回分词结果
   return result

这里我在当前文件夹下创建了一个文本文档“xiaoshuo.txt”,并复制了一章的小说作为词云的主体文字

使用代码控制,打开并读取小说的内容

#导入文本文件,进行分词,制作词云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 将读取的中文文档进行分词
   text = cut(text)

在网上找到一张白色背景的图片下载到当前文件夹,作为词云的背景图(若不指定图片,则默认生成矩形词云)

#设置词云形状,若设置了词云的形状,生成的词云与图片保持一致,后面设置的宽度和高度将默认无效
  mask = np.array(image.open("monkey.jpeg"))

接下来可以根据喜好来定义词云的颜色、轮廓等参数 下面为常用的参数设置方法

font_path : "字体路径" 词云的字体样式,若要输出中文,则跟随中文的字体
width =  n 画布宽度,默认为400像素
height =  n 画布高度,默认为400像素
scale = n 按比例放大或缩小画布
min_font_size = n 设置最小的字体大小
max_font_size = n 设置最大的字体大小
stopwords = 'words' 设置要屏蔽的词语
background_color = ''color 设置背景板颜色
relative_scaling = n 设置字体大小与词频的关联性
contour_width = n 设置轮廓宽度
contour_color = 'color' 设置轮廓颜色

完整代码

#导入词云库
 from wordcloud import WordCloud
 #导入图像处理库
 import PIL.Image as image
 #导入数据处理库
 import numpy as np
 #导入结巴分词库
 import jieba
 
 # 分词模块
 def cut(text):
   # 选择分词模式
   word_list = jieba.cut(text,cut_all= True)
   # 分词后在单独个体之间加上空格
   result = " ".join(word_list)
   return result
 
 #导入文本文件,进行分词,制作词云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 将读取的中文文档进行分词
   text = cut(text)
   #设置词云形状
   mask = np.array(image.open("monkey.jpeg"))
   #自定义词云
   wordcloud = WordCloud(
     # 遮罩层,除白色背景外,其余图层全部绘制(之前设置的宽高无效)
     mask=mask,
     #默认黑色背景,更改为白色
     background_color='#FFFFFF',
     #按照比例扩大或缩小画布
     scale=,
     # 若想生成中文字体,需添加中文字体路径
     font_path="/usr/share/fonts/bb5828/逐浪雅宋体.otf"
   ).generate(text)
   #返回对象
   image_produce = wordcloud.to_image()
   #保存图片
   wordcloud.to_file("new_wordcloud.jpg")
   #显示图像
   image_produce.show()

注:若想要生成图片样式的词云图,找到的图片背景必须为白色,或者使用Photoshop抠图替换成白色背景,否则生成的词云为矩形

我的词云原图:

Python实现Wordcloud生成词云图的示例

生成的词云图:

Python实现Wordcloud生成词云图的示例 

到此这篇关于Python实现Wordcloud生成词云图的示例的文章就介绍到这了,更多相关Python Wordcloud生成词云图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Cython 三分钟入门教程
Sep 17 Python
Python中请使用isinstance()判断变量类型
Aug 25 Python
python元组操作实例解析
Sep 23 Python
python实现堆和索引堆的代码示例
Mar 19 Python
pandas创建新Dataframe并添加多行的实例
Apr 08 Python
django框架使用orm实现批量更新数据的方法
Jun 21 Python
把vgg-face.mat权重迁移到pytorch模型示例
Dec 27 Python
如何解决tensorflow恢复模型的特定值时出错
Feb 06 Python
python实现ftp文件传输系统(案例分析)
Mar 20 Python
Django添加bootstrap框架时无法加载静态文件的解决方式
Mar 27 Python
django admin管理工具自定义时间区间筛选器DateRangeFilter介绍
May 19 Python
用python给csv里的数据排序的具体代码
Jul 17 Python
Django ModelForm操作及验证方式
Mar 30 #Python
windows10环境下用anaconda和VScode配置的图文教程
Mar 30 #Python
Python GUI编程学习笔记之tkinter控件的介绍及基本使用方法详解
Mar 30 #Python
Python GUI编程学习笔记之tkinter界面布局显示详解
Mar 30 #Python
自定义实现 PyQt5 下拉复选框 ComboCheckBox的完整代码
Mar 30 #Python
动态设置django的model field的默认值操作步骤
Mar 30 #Python
python数据库操作mysql:pymysql、sqlalchemy常见用法详解
Mar 30 #Python
You might like
基于mysql的bbs设计(四)
2006/10/09 PHP
深入理解PHP的远程多会话调试
2017/09/21 PHP
JScript的条件编译
2007/05/29 Javascript
extjs form textfield的隐藏方法
2008/12/29 Javascript
javascript 页面只自动刷新一次
2009/07/10 Javascript
ExtJS PropertyGrid中使用Combobox选择值问题
2010/06/13 Javascript
JavaScript代码复用模式实例分析
2012/12/02 Javascript
极易被忽视的javascript面试题七问七答
2016/02/15 Javascript
javascript表单控件实例讲解
2016/09/13 Javascript
微信小程序 rpx 尺寸单位详细介绍
2016/10/13 Javascript
JavaScript 基础表单验证示例(纯Js实现)
2017/07/20 Javascript
JS设计模式之单例模式(一)
2017/09/29 Javascript
react-navigation 如何判断用户是否登录跳转到登录页的方法
2017/12/01 Javascript
解决vue2 在mounted函数无法获取prop中的变量问题
2018/11/15 Javascript
前后端常见的几种鉴权方式(小结)
2019/08/04 Javascript
Python and、or以及and-or语法总结
2015/04/14 Python
Python错误提示:[Errno 24] Too many open files的分析与解决
2017/02/16 Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
2019/08/01 Python
pandas中read_csv的缺失值处理方式
2019/12/19 Python
jupyter 使用Pillow包显示图像时inline显示方式
2020/04/24 Python
Python plt 利用subplot 实现在一张画布同时画多张图
2021/02/26 Python
HTML5本地数据库基础操作详解
2016/04/26 HTML / CSS
女士鞋子、包包和服装在线,第一款10美元:ShoeDazzle
2019/07/26 全球购物
澳大利亚家具商店:Freedom
2020/12/17 全球购物
你所在的项目是如何确定版本号的
2015/12/28 面试题
自我评价范文
2013/12/22 职场文书
开学典礼决心书
2014/03/11 职场文书
采购意向书范本
2014/03/31 职场文书
2014年艾滋病防治工作总结
2014/12/10 职场文书
详解Vue的options
2021/05/15 Vue.js
MySQL 数据恢复的多种方法汇总
2021/06/21 MySQL
mybatis3中@SelectProvider传递参数方式
2021/08/04 Java/Android
使用Python+OpenCV进行卡类型及16位卡号数字的OCR功能
2021/08/30 Python
python数字类型和占位符详情
2022/03/13 Python
golang生成并解析JSON
2022/04/14 Golang
Go微服务项目配置文件的定义和读取示例详解
2022/06/21 Golang