编程 Python

Python爬取梨视频的示例

Posted in Python onJanuary 29, 2021

爬取流程（美食区最热标签下的三个视频）

在首页获取视频的编号和名字
拼接成正确的url
保存视频

思路

1.从网页中获取视频的url

Python爬取梨视频的示例

发现视频的url在id为“JprismPlayer”的div标签下的video标签src属性中，xpath解析网页

video_url = tree.xpath("//div[@id='JprismPlayer']/video/@src")

但得到的返回值为空，也就是说这个video标签在原网页中并不存在，很可能是动态加载出来的

2. 从动态请求获取视频的url

Python爬取梨视频的示例

果然在动态请求中发现了包含视频url的json数据

Python爬取梨视频的示例

可是发起请求后拿到的json数据却和抓包工具中看到的不一样，试着在请求头中加入Referer参数，查看referer可以发现，它最后video_后面跟的是首页中视频的编号

Python爬取梨视频的示例

{
	"resultCode":"1",
	"resultMsg":"success", "reqId":"fd1c910d-f49a-431a-b9a4-9c193c3c1983",
	"systemTime": "1611666178518",
	"videoInfo":{"playSta":"1","video_image":"https://image1.pearvideo.com/cont/20210125/11107897-184717-1.png","videos":{"hdUrl":"","hdflvUrl":"","sdUrl":"","sdflvUrl":"","srcUrl":"https://video.pearvideo.com/mp4/third/20210125/1611666178518-11107897-181816-hd.mp4"}}
}

在headers中加入Referer后顺利拿到json数据

Python爬取梨视频的示例

可向json数据中的视频url发起请求拿到的却是404页面

3. 拼接正确的url

这里花了很长时间去想哪里有问题，把前面的步骤理了很多遍才发现，其实动态请求返回的json数据中的视频url和主页video标签中的视频url根本不一致

Python爬取梨视频的示例

首页中加载出来的视频链接是正确的，可以顺利的拿到视频，而json数据中的链接则会返回404。把他们进行对比，可以看到他们前半部分是一样的，但到了红线框住的地方就不一样了。
正确的url是 cont-视频id-
而json数据中的url这个部分是一串数字
那只要把这一串数字改成 cont-视频id- 的形式就能获得正确的视频url了

代码

# 爬取梨视频

import requests
from lxml import etree
import os
from multiprocessing import Pool

# 梨视频首页url
url = "https://www.pearvideo.com/category_6"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
  }

# 获取响应，并用etree解析
response = requests.get(url=url, headers=headers).text
tree = etree.HTML(response)

# 拿到视频的名字和视频号
video_id_list = tree.xpath("//ul[@class='listvideo-list clearfix']/li[@class='categoryem ']//a[@class='vervideo-lilink actplay']/@href")
video_name_list = tree.xpath("//ul[@class='listvideo-list clearfix']/li[@class='categoryem ']//a/div[@class='vervideo-title']/text()")
data_list = [{"name": video_name_list[i], "idNum": video_id_list[i][6:]} for i in range(len(video_name_list))]

# 创建一个存放视频的文件夹
if not os.path.exists("./videos"):
  os.mkdir("./videos")

# 获取视频的函数
def down_video(data):
  name = data['name']
  idNum = data['idNum']

  # 获取视频需要的headers，注意这里的Referer要和视频的id匹配
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36',
    'Referer': f'https://www.pearvideo.com/video_{idNum}'
  }
  # 获取接近真正视频url的url，这里的id也需要和视频id匹配才行
  url = f'https://www.pearvideo.com/videoStatus.jsp?contId={idNum}'

  # 得到包含视频地址json响应数据
  response = requests.get(url=url, headers=headers).json()
  video_url = response["videoInfo"]["videos"]["srcUrl"]

  # 将视频地址中的数字替换成 cont-视频编号 拿到真正的视频地址
  video_url = video_url.replace(video_url.split("/")[-1].split("-")[0], "cont-" + idNum)

  # 拿到视频并保存
  video = requests.get(url=video_url, headers=headers).content
  with open(f"./videos/{name}.mp4", "wb") as f:
    print(f"正在下载视频 {name} ...")
    f.write(video)
    print(f"视频 {name} 下载完成！")

if __name__ == '__main__':
  # 创建进程池并使用
  pool = Pool(3)
  pool.map(down_video, data_list)
  pool.close()
  pool.join()

总结

其实最难的地方是获取正确的视频url，中间过程比较绕。只要找到这个地址，再加上从首页拿到的视频id就可以顺利拿到视频了。
如果要爬取整个首页视频只需要重新设置xpath路径就可以了。

以上就是Python爬取梨视频的示例的详细内容，更多关于Python爬取梨视频的资料请关注三水点靠木其它相关文章！

Python爬取梨视频的示例

- Author -

Miraak

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python小技巧之批量抓取美女图片

Jun 06 Python

跟老齐学Python之有容乃大的list(4)

Sep 28 Python

Python使用面向对象方式创建线程实现12306售票系统

Dec 24 Python

Python实现快速排序和插入排序算法及自定义排序的示例

Feb 16 Python

Python3中使用PyMongo的方法详解

Jul 28 Python

python将字典内容存入mysql实例代码

Jan 18 Python

python字符串string的内置方法实例详解

May 14 Python

Python实现字典排序、按照list中字典的某个key排序的方法示例

Dec 18 Python

PyCharm更改字体和界面样式的方法步骤

Sep 27 Python

python GUI库图形界面开发之PyQt5表格控件QTableView详细使用方法与实例

Mar 01 Python

python 引用传递和值传递详解(实参,形参)

Jun 05 Python

python性能测试工具locust的使用

Dec 28 Python

使用Python封装excel操作指南

Jan 29 #Python

用OpenCV进行年龄和性别检测的实现示例

Jan 29 #Python

python使用numpy中的size()函数实例用法详解

Jan 29 #Python

Python机器学习工具scikit-learn的使用笔记

Jan 28 #Python

K近邻法(KNN)相关知识总结以及如何用python实现

Jan 28 #Python

Python3中对json格式数据的分析处理

Jan 28 #Python

Python实现微信表情包炸群功能

Jan 28 #Python

You might like

php中preg_replace_callback函数简单用法示例

2016/07/21 PHP

学习thinkphp5.0验证类使用方法

2017/11/16 PHP

JS 实现完美include载入实现代码

2010/08/05 Javascript

JavaScript中链式调用之研习

2011/04/07 Javascript

JQuery入门——用bind方法绑定事件处理函数应用介绍

2013/02/05 Javascript

javascript中var的重要性分析

2015/02/11 Javascript

JavaScript实现判断图片是否加载完成的3种方法整理

2015/03/13 Javascript

JavaScript控制浏览器全屏及各种浏览器全屏模式的方法、属性和事件

2015/12/20 Javascript

JS & JQuery 动态添加 select option

2016/06/08 Javascript

JS实现对中文字符串进行utf-8的Base64编码的方法(使其与Java编码相同)

2016/06/21 Javascript

基于vue的下拉刷新指令和滚动刷新指令

2016/12/23 Javascript

NodeJs测试框架Mocha的安装与使用

2017/03/28 NodeJs

node.js 核心http模块,起一个服务器,返回一个页面的实例

2017/09/11 Javascript

vue-cli项目无法用本机IP访问的解决方法

2018/09/20 Javascript

vue实现微信二次分享以及自定义分享的示例

2019/03/20 Javascript

Vue项目部署的实现（阿里云+Nginx代理+PM2）

2019/03/26 Javascript

pycharm 使用心得（一）安装和首次使用

2014/06/05 Python

Python中使用语句导入模块或包的机制研究

2015/03/30 Python

python列表的增删改查实例代码

2018/01/30 Python

Python3爬虫之urllib携带cookie爬取网页的方法

2018/12/28 Python

python GUI库图形界面开发之PyQt5线程类QThread详细使用方法

2020/02/26 Python

python属于跨平台语言码

2020/06/09 Python

python3定位并识别图片验证码实现自动登录功能

2021/01/29 Python

python绘制汉诺塔

2021/03/01 Python

Spartoo葡萄牙鞋类网站：线上销售鞋履与时尚配饰

2017/01/11 全球购物

美丽的现代设计家具：2Modern

2018/07/26 全球购物

abstract是什么意思

2012/02/12 面试题

人事文员岗位职责

2014/02/16 职场文书

班级标语大全

2014/06/21 职场文书

班组拓展活动方案

2014/08/14 职场文书

交通局领导班子群众路线教育实践活动对照检查材料思想汇报

2014/10/09 职场文书

群众对十八届四中全会的期盼

2014/10/17 职场文书

债务纠纷起诉书

2015/05/20 职场文书

python批量创建变量并赋值操作

2021/06/03 Python

Python matplotlib可视化之绘制韦恩图

2022/02/24 Python

Java死锁的排查

2022/05/11 Java/Android