编程 Python

python爬虫线程池案例详解(梨视频短视频爬取)

Posted in Python onFebruary 20, 2021

python爬虫-梨视频短视频爬取(线程池)

示例代码

import requests
from lxml import etree
import random
from multiprocessing.dummy import Pool


# 多进程要传的方法，多进程pool.map()传的第二个参数是一个迭代器对象
# 而传的get_video方法也要有一个迭代器参数
def get_video(dic):
  headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56'
    }
  video_data = requests.get(url = dic['url'] , headers = headers).content
  print(dic['name']+'开始下载')
  
  # 有的文件名中包含空格，在并发执行时会报错，这里用随机数给文件起名了
  #path = dic['name']+'.mp4'会报错
  path = "./lishipin/"+str(int(random.random()*100)) + '.mp4'
  
  with open(path,'wb') as fp:
    fp.write(video_data)
  print(dic['name']+'下载成功')

def main():  
  # web_url:梨视频官网
  web_url = 'https://www.pearvideo.com/category_5'
  headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56'
    }
  
  # web_page_tex:官网页面
  web_page_text = requests.get(url = web_url,headers = headers).text
  
  tree = etree.HTML(web_page_text)
  
  # 解析梨视频官网“生活栏”中的所有li标签，遍历li标签，提取视频的url
  li_list = tree.xpath('//*[@id="listvideoListUl"]/li')
  rea_urls=[]
  for li in li_list:
     # video_name获取视频的名称
    video_name = li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
    
    # 加上'https://www.pearvideo.com/'得到完整的video_url
    video_url = 'https://www.pearvideo.com/'+li.xpath("./div/a/@href")[0]
    
    # 通过官网界面提取的url，并不是真正的url，
    # 因为MP4的视频是动态加载出来的，所以通过ajax请求获取视频的真实网址
    # 但是通过分析发现，ajax请求获取的网址是一个伪网址，和真实网址有区别(cont...)
      ##真地址：https://video.pearvideo.com/mp4/third/20210208/cont-1719874-15690592-205957-ld.mp4
      ##                          1719874
      ##伪地址：https://video.pearvideo.com/mp4/third/20210208/1612867876612-15690592-205957-ld.mp4


    # 通过得到的video_url可以分析到 真假网址 不同的细节之处--countId
    # 通过ajax请求向video_url发起get请求，需要加countId和mrd参数
    # 分析video_url得到countId，mrd是一个随机小树
    countId = video_url.split("/")[-1].split("_")[1]
    mrd = random.random()
    
    # 加'Referer'参数，否则会显示该视频已下架了
    headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
      'Referer': 'https://www.pearvideo.com/video_' + countId
      }
    ajax_url = 'https://www.pearvideo.com/videoStatus.jsp'
    
    # 利用ajax请求获取伪地址
    # https://www.pearvideo.com/videoStatus.jsp?contId=1719874&mrd=0.7759942025851074
    params = {
        'contId': str(countId),
        'mrd': str(mrd)
      }
    
    # 通过ajax请求，发起get请求得到一个json串
    ajax_json = requests.get(url = ajax_url,headers = headers,params = params).json()
    
    # 得到的是 假地址
    fake_url = ajax_json['videoInfo']['videos']['srcUrl']
    
    # 对假地址进行处理，并把刚才的countId组合起来
    fake_url_list = fake_url.split('/')
    end = fake_url_list.pop()  #删除不必要的字符串
    end_list = end.split("-")
    end_url = ""  #end_url是一个结尾字符串
    for i in range(len(end_list)-1):
      end_url = end_url + "-"+ end_list[i+1]
    
    # 真实的地址，先用假地址，然后组合countId
    rea_url=""
    for element in fake_url_list:
      rea_url=rea_url+element+"/"
    rea_url=rea_url+"cont-"+str(countId) + end_url
    
    # print(rea_url)
    
    
    dic = {
        'url':rea_url,
        'name':video_name
      }
    rea_urls.append(dic)
    
  #print(rea_urls)
  pool = Pool(4)
  pool.map(get_video,rea_urls)
  pool.close()
  pool.join()
  
if __name__ == '__main__':
  main()

知识点扩展：

Python爬虫下载视频（梨视频）

梨视频示例：Ctrl+Alt+L格式化代码

import re
import requests
import hashlib
import time
# print(respose.status_code)# 响应的状态码
# print(respose.content) #返回字节信息
# print(respose.text) #返回文本内容
 
mainurl = "https://www.pearvideo.com/"
videourl = "http://www.pearvideo.com/video_1499584"
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Accept-Encoding':'gzip, deflate, sdch',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8',
  }
# 获取视频链接列表
def geturls(url):
  res=requests.get(url)
  urls=re.findall('class="vervideo-tbd".*?href="(.*?)" rel="external nofollow" ',res.text,re.S)
  urllist=[]
  for i in urls:
    prefix='https://www.pearvideo.com/'
    urllist.append(prefix+i)
  return urllist
# 获取视频链接并下载（写入到硬盘）
def getvideo(url):
  res=requests.get(url,headers)
  mp4url=re.findall('srcUrl="(.*?\.mp4)"',res.text,re.S)[0]
  video=requests.get(mp4url)
  m = hashlib.md5()
  m.update(url.encode('utf-8'))
  m.update(str(time.time()).encode('utf-8'))
  filename = r'%s.mp4' % m.hexdigest()
  print(filename)
  with open("/home/tony/文档/爬虫视频/%s.mp4"%filename,'wb') as f:
    f.write(video.content)
def main():
  video_urllist=geturls(mainurl)
  for i in video_urllist:
    getvideo(i)
if __name__=='__main__':
  main()

到此这篇关于python爬虫线程池案例详解(梨视频短视频爬取)的文章就介绍到这了,更多相关python爬虫梨视频短视频爬取内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫线程池案例详解(梨视频短视频爬取)

- Author -

小王子爱上玫瑰

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中用memcached来减少数据库查询次数的教程

Apr 07 Python

python实现八大排序算法（1）

Sep 14 Python

Python3+django2.0+apache2+ubuntu14部署网站上线的方法

Jul 07 Python

Python中常用的8种字符串操作方法

May 06 Python

Python使用Pandas库实现MySQL数据库的读写

Jul 06 Python

在python中实现同行输入/接收多个数据的示例

Jul 20 Python

Django 用户认证组件使用详解

Jul 23 Python

Django中的静态文件管理过程解析

Aug 01 Python

python的time模块和datetime模块实例解析

Nov 29 Python

python with (as)语句实例详解

Feb 04 Python

python小白学习包管理器pip安装

Jun 09 Python

用Python实现职工信息管理系统

Dec 30 Python

python爬虫scrapy框架的梨视频案例解析

Feb 20 #Python

Keras保存模型并载入模型继续训练的实现

Feb 20 #Python

TensorFlow2.0使用keras训练模型的实现

Feb 20 #Python

tensorflow2.0教程之Keras快速入门

Feb 20 #Python

在Pycharm中安装Pandas库方法(简单易懂)

Feb 20 #Python

Python3爬虫RedisDump的安装步骤

Feb 20 #Python

python爬取2021猫眼票房字体加密实例

Feb 19 #Python

You might like

DISCUZ在win2003环境下 Unable to access ./include/common.inc.php in... 的问题终极解决方案

2011/11/21 PHP

yii2实现根据时间搜索的方法

2016/05/25 PHP

php+redis实现注册、删除、编辑、分页、登录、关注等功能示例

2017/02/15 PHP

浅谈PHP发送HTTP请求的几种方式

2017/07/25 PHP

PHP二维数组实现去除重复项的方法【保留各个键值】

2017/12/21 PHP

List Installed Software Features

2007/06/11 Javascript

jQuery Div中加载其他页面的实现代码

2009/02/27 Javascript

JavaScript Event学习第四章传统的事件注册模型

2010/02/07 Javascript

js,jQuery 排序的实现代码,网页标签排序的实现,标签排序

2011/04/27 Javascript

JS 控件事件小结

2012/10/31 Javascript

jQuery实现提交按钮点击后变成正在处理字样并禁止点击的方法

2015/03/24 Javascript

jquery滚动特效集锦

2015/06/03 Javascript

Vue.js第四天学习笔记（组件）

2016/12/02 Javascript

jquery实现手机端单店铺购物车结算删除功能

2017/02/22 Javascript

vue 2.0组件与v-model详解

2017/03/27 Javascript

理解 javascript 中的函数表达式与函数声明

2017/07/07 Javascript

webpack构建vue项目的详细教程（配置篇）

2017/07/17 Javascript

nodejs body-parser 解析post数据实例

2017/07/26 NodeJs

vue.js自定义组件directives的实例代码

2018/11/09 Javascript

node微信开发之获取access_token+自定义菜单

2019/03/17 Javascript

javascript绘制简单钟表效果

2020/04/07 Javascript

jQuery实现日历效果

2020/09/11 jQuery

基于python的字节编译详解

2017/09/20 Python

python微信跳一跳系列之棋子定位颜色识别

2018/02/26 Python

python 巧用正则寻找字符串中的特定字符的位置方法

2018/05/02 Python

Python字符串的一些操作方法总结

2019/06/10 Python

Python爬取豆瓣视频信息代码实例

2019/11/16 Python

Python 实现打印单词的菱形字符图案

2020/04/12 Python

Python StringIO及BytesIO包使用方法解析

2020/06/15 Python

Booking.com德国：预订最好的酒店和住宿

2020/02/16 全球购物

什么是Linux虚拟文件系统VFS

2012/01/31 面试题

研究生求职推荐信范文

2013/11/30 职场文书

教堂婚礼主持词

2014/03/14 职场文书

成绩单评语

2015/01/04 职场文书

聘任证明怎么写

2015/03/02 职场文书

环卫个人总结

2015/03/03 职场文书