编程 Python

用Python爬取QQ音乐评论并制成词云图的实例

Posted in Python onAugust 24, 2019

环境：Ubuntu16.4 python版本：3.6.4 库：wordcloud

这次我们要讲的是爬取QQ音乐的评论并制成云词图，我们这里拿周杰伦的等你下课来举例。

第一步：获取评论

我们先打开QQ音乐，搜索周杰伦的《等你下课》，直接拉到底部，发现有5000多页的评论。

用Python爬取QQ音乐评论并制成词云图的实例

这时候我们要研究的就是怎样获取每页的评论，这时候我们可以先按下F12，选择NetWork，我们可以先点击小红点清空数据，然后再点击一次，开始监控，然后点击下一页，看每次获取评论的时候访问获取的是哪几条数据。最后我们就能看到下图的样子，我们发现，第一条数据就是我们所要找的内容，点击第一条数据，打开它的response拉到最下面，发现他的最后一条评论rootcommentcontent跟我们网页中最后一条评论是一致的，那这时候已经成功了一般了，我们接下来只需要研究这条数据获取的规律就可以获取到所有的评论了。

用Python爬取QQ音乐评论并制成词云图的实例

我们先查看这条数据的Headers分析下Request URL,通过点开不同的页码进行比较，发现每次发出的情况网址大部分内容是相同，不同的地方有两个，就是pagenum跟JsonCallBack，pagenum从英文上很明显能看出来就是页码，JsonCallBack又是啥呢？

https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk=2058499274&jsonpCallback=jsoncallback7494258674829413&loginUin=2230661779&hostUin=0&format=jsonp&inCharset=utf8&outCharset=GB2312¬ice=0&platform=yqq&needNewCode=0&cid=205360772&reqtype=2&biztype=1&topid=212877900&cmd=8&needmusiccrit=0&pagenum=4&pagesize=25&lasthotcommentid=song_212877900_23831021_1526748144&callback=jsoncallback7494258674829413&domain=qq.com&ct=24&cv=101010

用Python爬取QQ音乐评论并制成词云图的实例

我们不妨将网址直接放在地址栏打开看看是怎样。我们可以发现是直接返回一个不正规的json格式，为什么说是不正规呢？因为他在开头多了个

jsoncallback7494258674829413

这个就是我们上面那个不知道怎么来的参数，我们尝试在把这个数据改一下后再打开网址，结果发现，获取的json内容是没有变化，唯一变的是开头jsoncallback1111111111

变成了我们输入的那个数值，所以我们可以猜测这是一个随机数，无论你输入什么，都不会影响我们要获取的内容。那这样就好办多了。

用Python爬取QQ音乐评论并制成词云图的实例

我们就直接放代码获取：

import requests
import json
def get_comment():
  for i in range(1,7000):
    # 打印页码
    print(i)
    # headers头部
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:59.0) Gecko/20100101 Firefox/59.0',
 'Referer': "https://y.qq.com/n/yqq/song/0031TAKo0095np.html"}
    # 请求的url
    url = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk=2058499274&jsonpCallback=jsoncallback06927647062927766&loginUin=2230661779&hostUin=0&format=jsonp&inCharset=utf8&outCharset=GB2312¬ice=0&platform=yqq&needNewCode=0&cid=205360772&reqtype=2&biztype=1&topid=212877900&cmd=8&needmusiccrit=0&pagenum=%s&pagesize=25&lasthotcommentid=song_212877900_3035803620_1526783365&callback=jsoncallback06927647062927766&domain=qq.com&ct=24&cv=101010' %i
    # 打印当前访问的url地址
    print (url)
    # 将请求得到的页面赋值为req
    req = requests.get(url,headers=headers,verify=False)
    # 对获取到的内容进行utf-8编码
    html = str(req.content,'UTF-8')
    # 对非正规的json进行处理,去掉头部跟尾部多余的部分
    html= html.strip("jsoncallback06927647062927766(")
    html = html.replace(")","")
    # 去掉两边的空格
    html = html.strip()
    # 将处理后的json转为python的json
    data = json.loads(html)
    # 获取json中评论的部分
    list = data['comment']['commentlist']
    # 每次都重新定义一个列表来存储每一页的评论
    content = []
    # 遍历当前页的评论并通过调用write()函数来保存
    for i in list:
      # 偶尔也会有一页的评论获取不到，这时候如果报错了可以直接忽略那一页，继续运行
      try:
        content.append(i['rootcommentcontent'].replace("[em]","").replace("[/em]","").replace("e400",""))
      except KeyError:
        content = []
        break
    write(content)
# 将当前页面的评论传递过来
def write(content):
  # 打开一个文件,将列表的内容一行一行的存储下来
  with open('comments.txt', 'a', encoding = 'UTF-8') as f:
    for i in range(len(content)):
      # 因为转为json后\n不胡自动换行，所以我们这里将\n给手换行
      string = content[i].split("\\n")
      for i in string:
        # 因为出现了很多评论被删除的情况,所有我们把这句给过滤掉
        i = i.replace("该评论已经被删除", "")
        # 打印每条评论
        print (i)
        # 将评论写入文本
        f.writelines(i)
        # 给评论换行
        f.write("\n")
if __name__ == "__main__":
  get_comment()

写入文档的内容大概就是这样：

用Python爬取QQ音乐评论并制成词云图的实例

获取完之后我们就能用wordcloud来进行词云图的制作了：

# -*- coding: utf-8 -*-
import jieba
from wordcloud import WordCloud, STOPWORDS
from os import path
from scipy.misc import imread
# 读取mask/color图片
d = path.dirname(__file__)
color_mask = imread("cyx.png")
#将爬到的评论放在string中
with open('nbzd.txt', 'r', encoding = 'UTF-8') as f:
  string = f.read()
  word = " ".join(jieba.cut(string))
  wordcloud = WordCloud(background_color='white',
             mask=color_mask,
             max_words=100,
             stopwords=STOPWORDS,
             font_path='/home/azhao/桌面/素材/simsun.ttc',
             max_font_size=100,
             random_state=30,
             margin=2).generate_from_text(word)
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

最后展示的结果是这样的：

用Python爬取QQ音乐评论并制成词云图的实例

以上这篇用Python爬取QQ音乐评论并制成词云图的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

用Python爬取QQ音乐评论并制成词云图的实例

- Author -

azaho

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python MySQLdb模块连接操作mysql数据库实例

Apr 08 Python

Python实现k-means算法

Feb 23 Python

python中的decorator的作用详解

Jul 26 Python

python3实现爬取淘宝美食代码分享

Sep 23 Python

Python两个字典键同值相加的几种方法

Mar 05 Python

PyQt5 多窗口连接实例

Jun 19 Python

pyqt 实现QlineEdit 输入密码显示成圆点的方法

Jun 24 Python

Python定时任务APScheduler的实例实例详解

Jul 22 Python

用Python写一个自动木马程序

Sep 17 Python

Python3 合并二叉树的实现

Sep 30 Python

python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

Mar 10 Python

python 实现图与图之间的间距调整subplots_adjust

May 21 Python

python解释器spython使用及原理解析

Aug 24 #Python

python爬虫之爬取百度音乐的实现方法

Aug 24 #Python

python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中

Aug 24 #Python

python处理自动化任务之同时批量修改word里面的内容的方法

Aug 23 #Python

解决在pycharm运行代码,调用CMD窗口的命令运行显示乱码问题

Aug 23 #Python

简单分析python的类变量、实例变量

Aug 23 #Python

python3 selenium自动化 frame表单嵌套的切换方法

Aug 23 #Python

You might like

解决phpmyadmin 乱码,支持gb2312和utf-8

2006/11/20 PHP

PHP5 字符串处理函数大全

2010/03/23 PHP

PHP命名空间(namespace)的使用基础及示例

2014/08/18 PHP

Laravel使用Caching缓存数据减轻数据库查询压力的方法

2016/03/15 PHP

jquery动态分页效果堪比时光网

2014/09/25 Javascript

jQuery制作简洁的图片轮播效果

2015/04/03 Javascript

基于jQuery实现响应式圆形图片轮播特效

2015/11/25 Javascript

js 自带的sort() 方法全面了解

2016/08/16 Javascript

jQuery实现表格文本框淡入更改值后淡出效果

2016/09/27 Javascript

js+html5实现侧滑页面效果

2017/07/15 Javascript

详解vue-admin和后端(flask)分离结合的例子

2018/02/12 Javascript

vue视频播放插件vue-video-player的具体使用方法

2019/11/08 Javascript

浅析python实现scrapy定时执行爬虫

2018/03/04 Python

Python使用统计函数绘制简单图形实例代码

2019/05/15 Python

python图像和办公文档处理总结

2019/05/28 Python

Python中查看变量的类型内存地址所占字节的大小

2019/06/26 Python

详解如何减少python内存的消耗

2019/08/09 Python

python实现逆滤波与维纳滤波示例

2020/02/26 Python

在python中list作函数形参,防止被实参修改的实现方法

2020/06/05 Python

python中id函数运行方式

2020/07/03 Python

利用纯CSS3实现tab选项卡切换示例代码

2016/09/21 HTML / CSS

俄罗斯眼镜网： optikaworld

2016/07/31 全球购物

美国成衣女装品牌：CHICO’S

2016/09/19 全球购物

Jar包的作用是什么

2014/03/30 面试题

幼儿园园长自我鉴定

2013/10/22 职场文书

生日宴会答谢词

2014/01/09 职场文书

幼儿园元旦家长感言

2014/02/27 职场文书

大课间体育活动方案

2014/03/12 职场文书

法制宣传实施方案

2014/03/13 职场文书

张家口市高新区党工委群众路线教育实践活动整改方案

2014/10/25 职场文书

2014年检察院个人工作总结

2014/12/09 职场文书

关于感恩的歌曲整理（8首）

2019/08/14 职场文书

Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤

2021/03/29 Python

Jupyter notebook 不自动弹出网页的解决方案

2021/05/21 Python

threejs太阳光与阴影效果实例代码

2022/04/05 Javascript

Golang 遍历二叉树

2022/04/19 Golang