利用python爬取斗鱼app中照片方法实例


Posted in Python onDecember 03, 2017

前言

没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来。

最近看到斗鱼里的照片都不错,决定用最新学习的python技术进行爬取,下面将实现的过程分享出来供大家参考,下面话不多说了,来一起看看详细的介绍吧。

方法如下:

首先下载一个斗鱼(不下载也可以,url都在这了对吧)

 

通过抓包,抓取到一个json的数据包,得到下面的地址

利用python爬取斗鱼app中照片方法实例 

观察测试可知,通过修改offset值就是相当于app的翻页

访问这个url,返回得到的是一个大字典,字典里面两个索引,一个error,一个data。而data又是一个长度为20的数组,每个数组又是一个字典。每个字典中又有一个索引,vertical_src。

我们的目标就是它了!

import urllib.parse
import urllib
import json
import urllib.request
data_info={}
data_info['type']='AUTO'
data_info['doctype']='json'
data_info['xmlVersion']='1.6'
data_info['ue']='UTF-8'
data_info['typoResult']='true'
head_info={}
head_info['User-Agent']='DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)'
url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset=20'
data_info=urllib.parse.urlencode(data_info).encode('utf-8')
print(data_info)
requ=urllib.request.Request(url,data_info)
requ.add_header('Referer','http://capi.douyucdn.cn')
requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')
response=urllib.request.urlopen(requ)
print(response)
html=response.read().decode('utf-8')

这短短20多行代码就能返回得到json数据了。然后再通过对这json代码的切片,分离得到每个主播照片的url地址。

然后得到这一页的照片

import json
import urllib.request
data_info={}
data_info['type']='AUTO'
data_info['doctype']='json'
data_info['xmlVersion']='1.6'
data_info['ue']='UTF-8'
data_info['typoResult']='true'

url+str(i)='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)
data_info=urllib.parse.urlencode(data_info).encode('utf-8')
print(data_info)
requ=urllib.request.Request(url,data_info)
requ.add_header('Referer','http://capi.douyucdn.cn')
requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')
response=urllib.request.urlopen(requ)
print(response)
html=response.read().decode('utf-8')
'''
 print(type(dictionary))
print(type(dictionary[data]))
'''
dictionary=json.loads(html)
data_arr=dictionary["data"]
for i in range(0,19):
  name=data_arr[i]["nickname"]
  img_url=data_arr[i]["vertical_src"]
  print(type(img_url))
  respon_tem=urllib.request.urlopen(img_url)
  anchor_img=respon_tem.read()
  with open('../photos/'+name+'.jpg','wb') as f:
    f.write(anchor_img)

然后修改一下,让它有了翻页的功能

import urllib.parse
import urllib
import json
import urllib.request
data_info={}
data_info['type']='AUTO'
data_info['doctype']='json'
data_info['xmlVersion']='1.6'
data_info['ue']='UTF-8'
data_info['typoResult']='true'
data_info=urllib.parse.urlencode(data_info).encode('utf-8')

for x in range(0,195):
  url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)
  print(data_info)
  requ=urllib.request.Request(url,data_info)
  requ.add_header('Referer','http://capi.douyucdn.cn')
  requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')
  response=urllib.request.urlopen(requ)
  print(response)
  html=response.read().decode('utf-8')
  dictionary=json.loads(html)
  data_arr=dictionary["data"]
  for i in range(0,19):
    name=data_arr[i]["nickname"]
    img_url=data_arr[i]["vertical_src"]
    print(type(img_url))
    respon_tem=urllib.request.urlopen(img_url)
    anchor_img=respon_tem.read()
    with open('../photos/'+name+'.jpg','wb') as f:
      f.write(anchor_img)

然后就等着吧~~

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python XML RPC服务器端和客户端实例
Nov 22 Python
Python实现简单HTML表格解析的方法
Jun 15 Python
Python中的字符串类型基本知识学习教程
Feb 04 Python
如何使用python爬取csdn博客访问量
Feb 14 Python
基于python实现名片管理系统
Nov 30 Python
python @propert装饰器使用方法原理解析
Dec 25 Python
Python 定义只读属性的实现方式
Mar 05 Python
Python实现获取当前目录下文件名代码详解
Mar 10 Python
Django项目创建及管理实现流程详解
Oct 13 Python
python抢购软件/插件/脚本附完整源码
Mar 04 Python
Python3中PyQt5简单实现文件打开及保存
Jun 10 Python
Python借助with语句实现代码段只执行有限次
Mar 23 Python
CentOS 6.5中安装Python 3.6.2的方法步骤
Dec 03 #Python
python3利用smtplib通过qq邮箱发送邮件方法示例
Dec 03 #Python
Python中类的初始化特殊方法
Dec 01 #Python
Python抓取框架Scrapy爬虫入门:页面提取
Dec 01 #Python
Python实现调度算法代码详解
Dec 01 #Python
Python进阶学习之特殊方法实例详析
Dec 01 #Python
Python用户推荐系统曼哈顿算法实现完整代码
Dec 01 #Python
You might like
德劲1104的电路分析与改良
2021/03/01 无线电
树型结构列出指定目录里所有文件的PHP类
2006/10/09 PHP
动态加载js的几种方法
2006/10/23 Javascript
Javascript代码混淆综合解决方案-Javascript在线混淆器
2006/12/18 Javascript
简介JavaScript中Math.cos()余弦方法的使用
2015/06/15 Javascript
javascript下使用Promise封装FileReader
2016/02/19 Javascript
原生js实现autocomplete插件
2016/04/14 Javascript
Bootstrap模块dropdown实现下拉框响应
2016/05/22 Javascript
浅谈JavaScript 浏览器对象
2016/06/03 Javascript
JS判断是否在微信浏览器打开的简单实例(推荐)
2016/08/24 Javascript
详解Vue.js 2.0 如何使用axios
2017/04/21 Javascript
Node.js使用MySQL连接池的方法实例
2018/02/11 Javascript
react-native使用leanclound消息推送的方法
2018/08/06 Javascript
基于aotu.js实现微信自动添加通讯录中的联系人功能
2020/05/28 Javascript
Element-ui upload上传文件限制的解决方法
2021/01/22 Javascript
[36:22]VP vs Serenity 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
Python新手们容易犯的几个错误总结
2017/04/01 Python
Python2.7.10以上pip更新及其他包的安装教程
2018/06/12 Python
python使用turtle库与random库绘制雪花
2018/06/22 Python
python pygame模块编写飞机大战
2018/11/20 Python
Python3实现的判断回文链表算法示例
2019/03/08 Python
pytorch使用 to 进行类型转换方式
2020/01/08 Python
45个非常奇妙的CSS3 特性应用示例
2012/01/01 HTML / CSS
HTML5 Canvas阴影使用方法实例演示
2013/08/02 HTML / CSS
前端实现背景虚化但内容清晰且自适应 的实例代码
2019/08/01 HTML / CSS
颇特女士香港官网:NET-A-PORTER香港
2021/03/08 全球购物
迟到检讨书400字
2014/01/13 职场文书
教师个人自我鉴定
2014/02/08 职场文书
查摆剖析材料范文
2014/09/30 职场文书
机关作风整顿个人剖析材料
2014/10/06 职场文书
个人收入证明范本
2015/06/12 职场文书
2016元旦主持人开场白
2015/12/03 职场文书
高中信息技术教学反思
2016/02/16 职场文书
2019森林防火宣传标语大全!
2019/07/03 职场文书
FP-growth算法发现频繁项集——发现频繁项集
2021/06/24 Python
Python可视化神器pyecharts之绘制箱形图
2022/07/07 Python