python爬虫爬取某网站视频的示例代码


Posted in Python onFebruary 20, 2021

把获取到的下载视频的url存放在数组中(也可写入文件中),通过调用迅雷接口,进行自动下载。(请先下载迅雷,并在其设置中心的下载管理中设置为一键下载)

实现代码如下:

from bs4 import BeautifulSoup
import requests
import os,re,time
import urllib3
from win32com.client import Dispatch
class DownloadVideo:
  def __init__(self):
    self.r = requests.session()
    self.url=self.get_url()
    self.download_urla=[]
    self.download_urlb=[]
    self.url_set=["%s/shipin/list-短视频.html"%self.url]
  #获取最新网址
  def get_url(self):
    urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
    a=self.r.get('https://www.k58.com',verify=False)
    b=a.url
    return b
  #几页内容的网址
  def url_set1(self,n):
    if n==2:
      url="%s/shipin/list-短视频-2.html"%self.url
      self.url_set.append(url)
    elif n>=3:
      m=n+1
      for i in range(2,m):
        url="%s/shipin/list-短视频-%d.html"%(self.url,i)
        self.url_set.append(url)
    else:
      pass
  #分别加载每一个页内容的网址
  def download_url1(self):
    for j in self.url_set:
      urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
      r=self.r.get(j,verify=False)
      sp1=r.content
      soup = BeautifulSoup(sp1, "html.parser")
      sp2 = soup.find_all(class_="shown")
      for i in sp2:
        url1=re.findall('<a href="(.*?)" rel="external nofollow" ',str(i))
        u=self.url+url1[0]
        self.download_urla.append(u)
  #分别获取各个视频的下载链接
  def download_url2(self):
    for i in self.download_urla:
      urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
      r=self.r.get(i,verify=False)
      sp1=r.content
      soup = BeautifulSoup(sp1, "html.parser")
      sp2 = soup.find_all(class_="form-control input-sm copy_btn app_disable")
      for j in sp2:
        url2=j["data-clipboard-text"]
        self.download_urlb.append(url2)
        #将链接写入txt中
        # self.write_txt(url2)
  #迅雷下载
  def thunder_download(self):
    try:
      thunder = Dispatch("ThunderAgent.Agent64.1")
      for i in self.download_urlb:
        thunder.AddTask(i)
        thunder.CommitTasks()
        time.sleep(2)
    except:
      print("请下载迅雷,并在其设置中心的下载管理中设置为一键下载")

  def mkdir(self,path):
    folder = os.path.exists(path)
    if not folder:
      os.makedirs(path)
    else:
      pass
  def write_txt(self,c):
    self.mkdir(r"D:\AAAAA")
    file_name=time.strftime('%Y%m%d_%H%M%S.txt')
    with open(r"D:\AAAAA\%s"%file_name,'a') as f:
      f.write(c+"\n")

if __name__ == '__main__':
  d=DownloadVideo()
  #数字表示几页的内容
  d.url_set1(5)
  d.download_url1()
  d.download_url2()
  d.thunder_download()

到此这篇关于python爬虫爬取某网站视频的示例代码的文章就介绍到这了,更多相关python爬虫爬取网站视频内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
简介Python中用于处理字符串的center()方法
May 18 Python
详解Python中dict与set的使用
Aug 10 Python
python装饰器与递归算法详解
Feb 18 Python
Python的shutil模块中文件的复制操作函数详解
Jul 05 Python
python opencv3实现人脸识别(windows)
May 25 Python
Python开发最牛逼的IDE——pycharm
Aug 01 Python
python join方法使用详解
Jul 30 Python
使用Python实现文字转语音并生成wav文件的例子
Aug 08 Python
Python使用configparser读取ini配置文件
May 25 Python
利用PyTorch实现VGG16教程
Jun 24 Python
Python如何读写CSV文件
Aug 13 Python
Python中logging日志的四个等级和使用
Nov 17 Python
python爬虫线程池案例详解(梨视频短视频爬取)
Feb 20 #Python
python爬虫scrapy框架的梨视频案例解析
Feb 20 #Python
Keras保存模型并载入模型继续训练的实现
Feb 20 #Python
TensorFlow2.0使用keras训练模型的实现
Feb 20 #Python
tensorflow2.0教程之Keras快速入门
Feb 20 #Python
在Pycharm中安装Pandas库方法(简单易懂)
Feb 20 #Python
Python3爬虫RedisDump的安装步骤
Feb 20 #Python
You might like
PHP实现的简单mock json脚本分享
2015/02/10 PHP
不用MOUSEMOVE也能滑动啊
2007/05/23 Javascript
用js实现计算代码行数的简单方法附代码
2007/08/13 Javascript
Javascript 八进制转义字符(8进制)
2011/04/08 Javascript
仅IE支持clearAttributes/mergeAttributes方法使用介绍
2012/05/04 Javascript
jQuery()方法的第二个参数详解
2015/04/29 Javascript
Fullpage.js固定导航栏-实现定位导航栏
2016/03/17 Javascript
javascript jquery对form元素的常见操作详解
2016/06/12 Javascript
JavaScript日期选择功能示例
2017/01/16 Javascript
js限制input只能输入有效的数字(第一个不能是小数点)
2018/09/28 Javascript
详解vue-element Tree树形控件填坑路
2019/03/26 Javascript
Node.js API详解之 Error模块用法实例分析
2020/05/14 Javascript
JS遍历树层级关系实现原理解析
2020/08/31 Javascript
Python实现115网盘自动下载的方法
2014/09/30 Python
python写xml文件的操作实例
2014/10/05 Python
零基础写python爬虫之神器正则表达式
2014/11/06 Python
python标准算法实现数组全排列的方法
2015/03/17 Python
python中的代码编码格式转换问题
2015/06/10 Python
Python实现的科学计算器功能示例
2017/08/04 Python
Python神奇的内置函数locals的实例讲解
2019/02/22 Python
Django框架模板语言实例小结【变量,标签,过滤器,继承,html转义】
2019/05/23 Python
Python tkinter模版代码实例
2020/02/05 Python
解决python-docx打包之后找不到default.docx的问题
2020/02/13 Python
python中的django是做什么的
2020/07/31 Python
CSS3实现的文本3D效果附图
2014/09/03 HTML / CSS
基于CSS3实现立方体自转效果
2016/03/01 HTML / CSS
幼儿园保育员辞职信
2014/01/12 职场文书
咖啡厅创业计划书范本
2014/01/22 职场文书
《水上飞机》教学反思
2014/04/10 职场文书
单位绩效考核方案
2014/05/11 职场文书
含预算的公司户外活动方案
2014/08/16 职场文书
计算机科学与技术专业求职信
2014/09/03 职场文书
大学生迟到检讨书500字
2014/10/17 职场文书
2014年社区个人工作总结
2014/12/02 职场文书
4种非常实用的python内置数据结构
2021/04/28 Python
CSS基础详解
2021/10/16 HTML / CSS