编程 Python

Python实现Wordcloud生成词云图的示例

Posted in Python onMarch 30, 2020

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式，通过词云生成的图片，我们可以更加直观的看出某篇文章的故事梗概。

首先贴出一张词云图（以哈利波特小说为例）：

在生成词云图之前，首先要做一些准备工作

1.安装结巴分词库

pip install jieba

Python实现Wordcloud生成词云图的示例

Python中的分词模块有很多，他们的功能也都是大同小异，我们安装的结巴分词是当前使用的最多的类型。

下面我来简单介绍一下结巴分词的用法

结巴分词的分词模式分为三种：

(1)全模式:把句子中所有的可以成词的词语都扫描出来, 速度快,但是不能解决歧义问题

(2)精确模式:将句子最精确地切开,适合文本分析

(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

下面用一个简单的例子来看一下三种模式的分词区别：

import jieba
 
 # 全模式:把句子中所有的可以成词的词语都扫描出来, 速度快,但是不能解决歧义问题
 text = "哈利波特是一常优秀的文学作品"
 seg_list = jieba.cut(text, cut_all=True)
 print(u"[全模式]: ", "/ ".join(seg_list))
 
 # 精确模式:将句子最精确地切开,适合文本分析
 seg_list = jieba.cut(text, cut_all=False)
 print(u"[精确模式]: ", "/ ".join(seg_list))
 
 # 默认是精确模式
 seg_list = jieba.cut(text)
 print(u"[默认模式]: ", "/ ".join(seg_list))
 
 # 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

下面是对这句话的分词方式：

Python实现Wordcloud生成词云图的示例

通过这三种分词模式可以看出，这些分词模式并没有很好的划分出“哈利波特”这个专有名词，这是因为在结巴分词的字典中并没有记录这个名词，所以需要我们手动添加自定义字典

添加自定义字典：找一个方便引用的位置（下图的路径是我安装的位置），新建文本文档（后缀名为.txt），将想添加的词输入进去（注意输入格式），保存并退出

Python实现Wordcloud生成词云图的示例

在上面的代码中加入自定义字典的路径，再点击运行

jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")

分词结果，可以看出“哈利波特”这个词已经被识别出来了

Python实现Wordcloud生成词云图的示例

结巴分词还有另一个禁用词的输出结果

stopwords = {}.fromkeys(['优秀', '文学作品'])
 
 #添加禁用词之后
 seg_list = jieba.cut(text)
 final = ''
 for seg in seg_list:
   if seg not in stopwords:
       final += seg
 seg_list_new = jieba.cut(final)
 print(u"[切割之后]: ", "/ ".join(seg_list_new))

可以看到输出结果中并没有“优秀”和“文学作品”两个词

Python实现Wordcloud生成词云图的示例

结巴分词还有很多比较复杂的操作，具体的可以去官网查看，我就不再过多的赘述了

下面我们正式开始词云的制作

首先下载模块，这里我所使用的环境是Anaconda，由于Anaconda中包含很多常用的扩展包，所以这里只需要下载wordcloud。若使用的环境不是Anaconda，则另需安装numpy和PIL模块

pip install wordcloud

Python实现Wordcloud生成词云图的示例

然后我们需要找一篇文章并使用结巴分词将文章分成词语的形式

# 分词模块
 def cut(text):
   # 选择分词模式
   word_list = jieba.cut(text,cut_all= True)
   # 分词后在单独个体之间加上空格
   result = " ".join(word_list)
   # 返回分词结果
   return result

这里我在当前文件夹下创建了一个文本文档“xiaoshuo.txt”，并复制了一章的小说作为词云的主体文字

使用代码控制，打开并读取小说的内容

#导入文本文件,进行分词,制作词云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 将读取的中文文档进行分词
   text = cut(text)

在网上找到一张白色背景的图片下载到当前文件夹，作为词云的背景图（若不指定图片，则默认生成矩形词云）

#设置词云形状，若设置了词云的形状，生成的词云与图片保持一致，后面设置的宽度和高度将默认无效
  mask = np.array(image.open("monkey.jpeg"))

接下来可以根据喜好来定义词云的颜色、轮廓等参数下面为常用的参数设置方法

font_path : "字体路径"	词云的字体样式，若要输出中文，则跟随中文的字体
width = n	画布宽度，默认为400像素
height = n	画布高度，默认为400像素
scale = n	按比例放大或缩小画布
min_font_size = n	设置最小的字体大小
max_font_size = n	设置最大的字体大小
stopwords = 'words'	设置要屏蔽的词语
background_color = ''color	设置背景板颜色
relative_scaling = n	设置字体大小与词频的关联性
contour_width = n	设置轮廓宽度
contour_color = 'color'	设置轮廓颜色

完整代码

#导入词云库
 from wordcloud import WordCloud
 #导入图像处理库
 import PIL.Image as image
 #导入数据处理库
 import numpy as np
 #导入结巴分词库
 import jieba
 
 # 分词模块
 def cut(text):
   # 选择分词模式
   word_list = jieba.cut(text,cut_all= True)
   # 分词后在单独个体之间加上空格
   result = " ".join(word_list)
   return result
 
 #导入文本文件,进行分词,制作词云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 将读取的中文文档进行分词
   text = cut(text)
   #设置词云形状
   mask = np.array(image.open("monkey.jpeg"))
   #自定义词云
   wordcloud = WordCloud(
     # 遮罩层,除白色背景外,其余图层全部绘制（之前设置的宽高无效）
     mask=mask,
     #默认黑色背景,更改为白色
     background_color='#FFFFFF',
     #按照比例扩大或缩小画布
     scale=,
     # 若想生成中文字体,需添加中文字体路径
     font_path="/usr/share/fonts/bb5828/逐浪雅宋体.otf"
   ).generate(text)
   #返回对象
   image_produce = wordcloud.to_image()
   #保存图片
   wordcloud.to_file("new_wordcloud.jpg")
   #显示图像
   image_produce.show()

注：若想要生成图片样式的词云图，找到的图片背景必须为白色，或者使用Photoshop抠图替换成白色背景，否则生成的词云为矩形

我的词云原图：

Python实现Wordcloud生成词云图的示例

生成的词云图：

Python实现Wordcloud生成词云图的示例

到此这篇关于Python实现Wordcloud生成词云图的示例的文章就介绍到这了,更多相关Python Wordcloud生成词云图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python实现Wordcloud生成词云图的示例

- Author -

merlin&

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现人人网登录示例分享

Jan 19 Python

Pytorch入门之mnist分类实例

Apr 14 Python

mac下pycharm设置python版本的图文教程

Jun 13 Python

Python列表推导式与生成器用法分析

Aug 02 Python

python3中eval函数用法使用简介

Aug 02 Python

python实发邮件实例详解

Nov 11 Python

python之array赋值技巧分享

Nov 28 Python

python 实现保存最新的三份文件,其余的都删掉

Dec 22 Python

Python解释器以及PyCharm的安装教程图文详解

Feb 26 Python

Python实现爬取网页中动态加载的数据

Aug 17 Python

python一些性能分析的技巧

Aug 30 Python

Python数据结构之队列详解

Mar 21 Python

Django ModelForm操作及验证方式

Mar 30 #Python

windows10环境下用anaconda和VScode配置的图文教程

Mar 30 #Python

Python GUI编程学习笔记之tkinter控件的介绍及基本使用方法详解

Mar 30 #Python

Python GUI编程学习笔记之tkinter界面布局显示详解

Mar 30 #Python

自定义实现 PyQt5 下拉复选框 ComboCheckBox的完整代码

Mar 30 #Python

动态设置django的model field的默认值操作步骤

Mar 30 #Python

python数据库操作mysql：pymysql、sqlalchemy常见用法详解

Mar 30 #Python

You might like

选择PHP作为网站开发语言的原因分享

2012/01/03 PHP

PHP的可变变量名的使用方法分享

2012/02/05 PHP

探讨php中防止SQL注入最好的方法是什么

2013/06/10 PHP

ECSHOP完美解决Deprecated: preg_replace()报错的问题

2016/05/17 PHP

Yii 2.0中场景的使用教程

2017/06/02 PHP

jquery中:input和input的区别分析

2011/07/13 Javascript

javascript拖拽上传类库DropzoneJS使用方法

2013/12/05 Javascript

jquery div拖动效果示例代码

2013/12/08 Javascript

常见浏览器多长时间会提示“脚本运行时间过长”总结

2014/04/29 Javascript

jQuery插件passwordStrength密码强度指标详解

2016/06/24 Javascript

javascript深拷贝的原理与实现方法分析

2017/04/10 Javascript

vue2.0项目实现路由跳转的方法详解

2018/06/21 Javascript

小程序怎样让wx.navigateBack更好用的方法实现

2019/11/01 Javascript

Node 使用express-http-proxy 做api网关的实现

2020/10/15 Javascript

[07:59]2014DOTA2叨叨刀塔林熊猫称被邀请赛现场盛况震撼

2014/07/21 DOTA

[59:00]DOTA2-DPC中国联赛正赛 Ehome vs PSG.LGD BO3 第一场 3月7日

2021/03/11 DOTA

Python中获取网页状态码的两个方法

2014/11/03 Python

Linux中Python 环境软件包安装步骤

2016/03/31 Python

Python判断两个对象相等的原理

2017/12/12 Python

python 获取list特定元素下标的实例讲解

2018/04/09 Python

python提取包含关键字的整行数据方法

2018/12/11 Python

把django中admin后台界面的英文修改为中文显示的方法

2019/07/26 Python

用python生成与调用cntk模型代码演示方法

2019/08/26 Python

Python实现报警信息实时发送至邮箱功能(实例代码)

2019/11/11 Python

Python表达式的优先级详解

2020/02/18 Python

浅谈python元素如何去重,去重后如何保持原来元素的顺序不变

2020/02/28 Python

tensorflow实现将ckpt转pb文件的方法

2020/04/22 Python

django template实现定义临时变量,自定义赋值、自增实例

2020/07/12 Python

OpenCV图片漫画效果的实现示例

2020/08/18 Python

Python 随机按键模拟2小时

2020/12/30 Python

Python的轻量级ORM框架peewee使用教程

2021/02/05 Python

html5 web本地存储将取代我们的cookie

2012/12/26 HTML / CSS

HTML5 Canvas绘制圆点虚线实例

2015/01/01 HTML / CSS

凯特方迪化妆品官网：Kat Von D Beauty

2016/11/15 全球购物

网络工程师的自我评价

2013/10/02 职场文书

会计实习期自我鉴定

2013/10/06 职场文书