如何基于Python爬取隐秘的角落评论


Posted in Python onJuly 02, 2020

“一起去爬山吧?”

这句台词火爆了整个朋友圈,没错,就是来自最近热门的《隐秘的角落》,豆瓣评分8.9分,好评不断。

如何基于Python爬取隐秘的角落评论

感觉还是蛮不错的。同时,为了想更进一步了解一下小伙伴观剧的情况,永恒君抓取了爱奇艺平台评论数据并进行了分析。下面来做个分享,给大伙参考参考。

1、爬取评论数据

因为该剧是在爱奇艺平台独播的,自然数据源从这里取比较合适。永恒君爬取了《隐秘的角落》12集的从开播日6月16日-6月26日的评论数据。

使用 Chrome 查看源代码模式,在播放页面往下面滑动,有一个 get_comments 的请求,经过调试分析,这个接口就是获取评论数据的接口,后面连接上一系列的参数即可获取评论的数据。

如何基于Python爬取隐秘的角落评论

其中关键的就是last_id这个参数,是用来控制评论分页的,需要通过上一个页面最后一条评论的id来进行获取。

爬虫部分代码

def get_comment_html(movieId, movieName, lastId):#将获取评论的json源码,保存到txt文件中
  url = "http://sns-comment.iqiyi.com/v3/comment/get_comments.action?"
  params = {
    "types":"time",
    "business_type":"17",
    "agent_type":"118",
    "agent_version":"9.11.5",
    "authcookie":"authcookie"
  }
  for item in params:
    url = url + item + "=" + params[item] + "&"
  url = url + "content_id=" + movieId+ "&last_id=" + lastId
  #url 为拼接好的评论地址  

  headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
    "Accept": "application/json, text/javascript",
    "Referer": "https://www.iqiyi.com/v_19rxtiliso.html?vfm=2008_aldbd&fv=p_02_01",

  }
  response = requests.get(url, headers=headers)  
  filename = movieId + movieName+".txt"
  if response.status_code == 200:    
    with open(filename,"a",encoding='utf-8') as f:
      f.write(response.text+"\n")
    #将获取的评论json源码保存到txt文件,一次写入一行,表示获取的这一页的评论      
  else:
    print("request error")
  print("爬取第{}页评论".format(file_lines(filename)))
  time.sleep(0.5)  
  last_id = parseData(response.text) #解析并获取下一个id  
  if last_id != "End":
    get_comment_html(movieId, movieName, parseData(response.text))
  else:
    print("已到结尾")
    #continue#结束整个程序
  return None

最终将12集爬取下来的包含评论数据的json源码保存到txt文件当中,解析提取评论的时间、用户名、性别、评论内容等信息,经过去重、去空白等数据清理工作,最终获得28010条评论信息。

如何基于Python爬取隐秘的角落评论

2、分析展示数据

在海量的数据中,我们可以分析出我们想看到的结果。为了更好的数据处理和可视化展示,这里永恒君用了Pandas和Pyecharts 这两个库。

1)评论用户性别方面

女生占了大部分,占比60.89%,比男性用户要多不少。

如何基于Python爬取隐秘的角落评论

2)每一集的评论数量

接下来,我们再来看一下,每一期的评论数量,看是否能够得出一些不一样的数据。

from pyecharts.charts import Bar ##导入需要使用的图表
from pyecharts import options as opts ##导入配置项

comment_num3 = df["集数"].value_counts().sort_index()

x_line3 = comment_num3.index.to_list()
y_line3 = comment_num3.values.tolist()

bar1=(
   Bar(init_opts=opts.InitOpts(width='800px', height='350px')) ##定义为柱状图
   .add_xaxis(x_line3) ##X轴的值
   .add_yaxis('评论数',y_line3) ##y的值和y的一些数据配置项
   .set_global_opts(title_opts=opts.TitleOpts(title='《隐秘的角落》1-12集评论数量'))
  
   )
                                    
bar1.render("bar3.html") ###输出html文件

如何基于Python爬取隐秘的角落评论

除了第一集的评论数特别多之外,可以看到,上半段的评论数明显要比下半段的要多,是否意味着大家普遍觉得前期的要更好看一些?

如何基于Python爬取隐秘的角落评论

3)开播十天之内的评论数量走势

接下来我们来看看从6月16日开播之后,网友们对该剧的评论数量走势情况。

from pyecharts.charts import Line ##导入需要使用的图表
from pyecharts import options as opts ##导入配置项

comment_num = df["留言时间"].str.split(' ').str[0].value_counts().sort_index()


x_line1 = [i.replace('2020-','') for i in comment_num.index.to_list()] 
y_line1 = comment_num.values.tolist()

# 绘制面积图
line1 = Line(init_opts=opts.InitOpts(width='1200px', height='600px'))
line1.add_xaxis(x_line1)
line1.add_yaxis('', y_line1,
        markpoint_opts=opts.MarkPointOpts(data=[
          opts.MarkPointItem(type_='max', name='最大值'),
          opts.MarkPointItem(type_='min', name='最小值')
        ])) 
line1.set_global_opts(title_opts=opts.TitleOpts('《隐秘的角落》开播10天内评论走势'), 
           xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate='30')),
           #visualmap_opts=opts.VisualMapOpts(max_=12673)
           ) 
line1.set_series_opts(label_opts=opts.LabelOpts(is_show=True), 
           linestyle_opts=opts.LineStyleOpts(width=2))
line1.render("Line.html")

如何基于Python爬取隐秘的角落评论

可以看到,从6月16日开播后,评论数量一路走高在6月25日达到了一个阶段的高点。

4)一天之中大家都在什么时间段看这部剧?

通过统计16日-26日每日0-23时的评论数量,来看看大家一般都在什么时候看剧

from pyecharts.charts import Bar ##导入需要使用的图表
from pyecharts import options as opts ##导入配置项

comment_num2 = df["留言时间"].str.split(' ').str[1].str.split(":").str[0].value_counts().sort_index()

x_line2 = comment_num2.index.to_list()
y_line2 = comment_num2.values.tolist()

bar1=(
   Bar(init_opts=opts.InitOpts(width='800px', height='350px')) ##定义为柱状图
   .add_xaxis(x_line2) ##X轴的值
   .add_yaxis('评论数',y_line2) ##y的值和y的一些数据配置项
   .set_global_opts(title_opts=opts.TitleOpts(title='《隐秘的角落》0-23时评论数量'))
  
   )
                                    
bar1.render("bar2.html") ###输出html文件

如何基于Python爬取隐秘的角落评论

可以看到,晚上20点-23时为最集中看剧的时间段,其次中午12-14点也有一波小高峰,总体更多的人是下午看剧的人多。

这是否也是你看剧的时间段呢?

5)评论的字数情况

永恒君一般看剧基本都不写评论的或者也是简单几个字,但是在这里,我特地看了一下评论字数的分布,

def comment_word_group(strings): #评论字数分组函数
  if len(strings)<=10:
    length = 0
  elif len(strings) > 10 and len(strings)<=30:
    length = 1
  elif len(strings) >30 and len(strings) <=50:
    length = 2
  else:
    length = 3
  return length

df["留言数量组别"] = df["留言内容"].apply(lambda x:comment_word_group(x))#评论字数分组

lengthData = df.groupby(['留言数量组别'])["留言内容"].count()#评论字数分组统计

from pyecharts.charts import Bar ##导入需要使用的图表
from pyecharts import options as opts ##导入配置项

attr = ["10字以内","10~30字","30~50字","50字以上"] #X轴
v1 = lengthData.values.tolist() #Y轴

bar1=(
   Bar(init_opts=opts.InitOpts(width='800px', height='350px')) ##定义为柱状图
   .add_xaxis(attr) ##X轴的值
   .add_yaxis('评论数量',v1) ##y的值和y的一些数据配置项
   .set_global_opts(title_opts=opts.TitleOpts(title='《隐秘的角落》评论字数分布'))  
   )                                    
bar1.render("bar.html") ###输出html文件

如何基于Python爬取隐秘的角落评论

绝大部分的评论字数都是在10个字以内,但也有约25%的评论字数在10-30个之内,还是让永恒君有点意外,是否说明该剧火爆也是有原因的,激起了不少伙伴的共鸣。

6)评论核心关键词

最后,永恒君将通过wordcloud库制作词云来看看,大家对该剧的整体评价,以及该剧的核心关键词。

#词云
from PIL import Image
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS
import jieba
import matplotlib.pyplot as plt
import numpy as np

contents = df["留言内容"].str.cat(sep=" ")
contents

sw = set(STOPWORDS)
sw.add("这个")
sw.add("什么")

cut_text2 = " ".join(jieba.lcut(contents))

background_image = np.array(Image.open("bg.png"))

wc = WordCloud(font_path=r'C:\Windows\Fonts\simhei.ttf',
        background_color='White',
        max_words=3000,
        width=1000,
        height=500,
        scale=1,
        stopwords=sw,#停用词
        mask = background_image
        )
#font_path:设置字体,max_words:出现的最多词数量,mask参数=图片背景,必须要写上,另外有mask参数再设定宽高是无效的
wc.generate(cut_text2)
wc.to_file("a2.jpg")


#将图绘制出来
plt.imshow(wc)
plt.axis("off") 
plt.show()

如何基于Python爬取隐秘的角落评论

可以看到,“朝阳”、“严良”、“张东升”、“普普”、“好看”、“喜欢”、“小孩”、“原著”等关键词都是大伙在热议的。

不得不说,近年来如此火热的、而且质量不错的国产剧确实不多了。永恒君看前几集的时候,突然又有大学时候看《越狱》的那个味道,看了一集就想看下一集,停不下来。

如果你现在还没有来得及看,建议抽个时间去看看吧~~~

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 Python
两个命令把 Vim 打造成 Python IDE的方法
Mar 20 Python
Python生成随机密码的方法
Jun 16 Python
Python实现Kmeans聚类算法
Jun 10 Python
Scrapy基于selenium结合爬取淘宝的实例讲解
Jun 13 Python
python简易远程控制单线程版
Jun 20 Python
python读取Excel实例详解
Aug 17 Python
win10子系统python开发环境准备及kenlm和nltk的使用教程
Oct 14 Python
Django中modelform组件实例用法总结
Feb 10 Python
django中url映射规则和服务端响应顺序的实现
Apr 02 Python
python下载的库包存放路径
Jul 27 Python
OpenCV+python实现膨胀和腐蚀的示例
Dec 21 Python
keras中epoch,batch,loss,val_loss用法说明
Jul 02 #Python
Python使用tkinter实现摇骰子小游戏功能的代码
Jul 02 #Python
浅谈keras使用预训练模型vgg16分类,损失和准确度不变
Jul 02 #Python
python脚本和网页有何区别
Jul 02 #Python
keras:model.compile损失函数的用法
Jul 01 #Python
win10安装python3.6的常见问题
Jul 01 #Python
Python代码需要缩进吗
Jul 01 #Python
You might like
PHP产生随机字符串函数
2006/12/06 PHP
php表单提交问题的解决方法
2011/04/12 PHP
ThinkPHP中pathinfo的访问模式、路径访问模式及URL重写总结
2014/08/23 PHP
详解Laravel设置多态关系模型别名的方式
2019/10/17 PHP
function, new function, new Function之间的区别
2007/03/08 Javascript
jquery.boxy插件的iframe扩展代码
2010/07/02 Javascript
分享精心挑选的12款优秀jQuery Ajax分页插件和教程
2012/08/09 Javascript
js 获取input点选按钮的值的方法
2014/04/14 Javascript
Angularjs material 实现搜索框功能
2016/03/08 Javascript
JS调用Android、Ios原生控件
2017/01/06 Javascript
浅谈js函数三种定义方式 &amp; 四种调用方式 &amp; 调用顺序
2017/02/19 Javascript
详解angularJs中关于ng-class的三种使用方式说明
2017/06/02 Javascript
基于Two.js实现星球环绕动画效果的示例
2017/11/06 Javascript
判断js数据类型的函数实例详解
2019/05/23 Javascript
详细教你微信公众号正文页SVG交互开发技巧
2019/07/25 Javascript
浅谈vue权限管理实现及流程
2020/04/23 Javascript
jQuery实现移动端扭蛋机抽奖
2020/11/08 jQuery
[34:39]DOTA2上海特级锦标赛主赛事日 - 4 败者组第四轮#1COL VS EG第二局
2016/03/05 DOTA
[02:49]2018DOTA2亚洲邀请赛主赛事决赛日战况回顾 Mineski鏖战5局夺得辉耀
2018/04/10 DOTA
Python实现列表转换成字典数据结构的方法
2016/03/11 Python
Python探索之修改Python搜索路径
2017/10/25 Python
Python实现堡垒机模式下远程命令执行操作示例
2019/05/09 Python
Flask框架中request、请求钩子、上下文用法分析
2019/07/23 Python
python使用多线程编写tcp客户端程序
2019/09/02 Python
关于HTML5的安全问题开发人员需要牢记的
2012/06/21 HTML / CSS
Lacoste澳大利亚官网:服装、鞋类及配饰
2018/11/14 全球购物
欧缇丽加拿大官方网站:Caudalie加拿大
2019/07/18 全球购物
大学生简短的自我评价分享
2014/02/20 职场文书
尊老爱亲美德少年事迹材料
2014/08/14 职场文书
2014年教师学期工作总结
2014/11/08 职场文书
幼儿园教研工作总结2015
2015/05/12 职场文书
事业单位工作人员2015年度思想工作总结
2015/10/15 职场文书
交通事故协议书范本
2016/03/19 职场文书
个人售房合同协议书
2016/03/21 职场文书
Java Dubbo框架知识点梳理
2021/06/26 Java/Android
SQL语法CONSTRAINT约束操作详情
2022/01/18 MySQL