编程 Python

python 下载文件的几种方式分享

Posted in Python onApril 07, 2021

1 、一般同步下载

示例代码：

import requests
import os

def downlaod(url, file_path):
  headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
  }
  r = requests.get(url=url, headers=headers)
  with open(file_path, "wb") as f:
    f.write(r.content)
    f.flush()

2、使用流式请求，requests.get方法的stream

默认情况下是stream的值为false，它会立即开始下载文件并存放到内存当中，倘若文件过大就会导致内存不足的情况，程序就会报错。
当把get函数的stream参数设置成True时，它不会立即开始下载，当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载，需要注意一点：文件没有下载之前，它也需要保持连接。

iter_content：一块一块的遍历要下载的内容
iter_lines：一行一行的遍历要下载的内容

使用上面两个函数下载大文件可以防止占用过多的内存，因为每次只下载小部分数据。

示例代码:

3 、异步下载文件

由于request的请求是阻塞式的，所以要用aiohttp模块来发起请求。

示例代码：

import aiohttp
import asyncio
import os


async def handler(url, file_path):
  headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
  }
  async with aiohttp.ClientSession() as session:
    r = await session.get(url=url, headers=headers)
    with open(file_path, "wb") as f:
      f.write(await r.read())
      f.flush()
      os.fsync(f.fileno())


loop = asyncio.get_event_loop()
loop.run_until_complete(handler(url, file_path))

4、异步拆分下载文件

上面用的是一个协程下载一个文件，下面的方法是将文件分成几部分，每个部分用一个协程下载，最后再写入文件。

下面这个例子用的是流式写入，即把内容写入到磁盘里面。

import aiohttp
import asyncio
import time
import os


async def consumer(queue):
  option = await queue.get()
  start = option["start"]
  end = option["end"]
  url = option["url"]
  filename = option["filename"]
  i = option["i"]

  print(f"第{i}个任务开始运行")
  async with aiohttp.ClientSession() as session:
    headers = {"Range": f"bytes={start}-{end}"}
    r = await session.get(url=url, headers=headers)
    with open(filename, "rb+") as f:
      f.seek(start)
      while True:
        chunk = await r.content.read(end - start)
        if not chunk:
          break
        f.write(chunk)
        f.flush()
        os.fsync(f.fileno())
        print(f"第{i}个任务正在写入中ing")
    queue.task_done()
    print(f"第{i}个任务写入成功")


async def producer(url, headers, filename, queue, coro_num):
  async with aiohttp.ClientSession() as session:
    resp = await session.head(url=url, headers=headers)
    file_size = int(resp.headers["content-length"])
    # 创建一个文件
    with open(filename, "wb") as f:
      pass
    part = file_size // coro_num
    for i in range(coro_num):
      start = part * i
      if i == coro_num - 1:
        end = file_size
      else:
        end = start + part
      info = {
        "start": start,
        "end": end,
        "url": url,
        "filename": filename,
        "i": i,
      }
      queue.put_nowait(info)


async def main():
  # 需要填的有url，filename，coro_num
  url = ""
  filename = ""
  coro_num = 0
  headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0"
  }
  queue = asyncio.Queue(coro_num)
  await producer(url, headers, filename, queue, coro_num)
  task_list = []
  for i in range(coro_num):
    task = asyncio.create_task(consumer(queue))
    task_list.append(task)
  await queue.join()
  for i in task_list:
    i.cancel()
  await asyncio.gather(*task_list)


startt = time.time()
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
end = time.time() - startt
print(f"用了{end}秒")

5、注意

以上的示例都是介绍思路，程序并不健壮，健壮的程序需要加入错误捕获和错误处理。

以上就是python 下载文件的几种方式分享的详细内容，更多关于python 下载文件的资料请关注三水点靠木其它相关文章！

python 下载文件的几种方式分享

- Author -

虎卫兵

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python函数返回值实例分析

Jun 08 Python

使用Python脚本生成随机IP的简单方法

Jul 30 Python

python扫描proxy并获取可用代理ip的实例

Aug 07 Python

python实现雨滴下落到地面效果

Jun 21 Python

python 实现将多条曲线画在一幅图上的方法

Jul 07 Python

python hashlib加密实现代码

Oct 17 Python

Python数据可视化：箱线图多种库画法

Nov 06 Python

python爬虫模拟浏览器的两种方法实例分析

Dec 09 Python

Django框架获取form表单数据方式总结

Apr 22 Python

opencv之颜色过滤只留下图片中的红色区域操作

Jun 05 Python

Python将list元素转存为CSV文件的实现

Nov 16 Python

python切片作为占位符使用实例讲解

Feb 17 Python

完美处理python与anaconda环境变量的冲突问题

python 如何用map()函数创建多线程任务

python requests模块的使用示例

Apr 07 #Python

Python 使用dict实现switch的操作

Apr 07 #Python

Python 把两层列表展开平铺成一层(5种实现方式)

Apr 07 #Python

Python获取百度热搜的完整代码

详解Python小数据池和代码块缓存机制

Apr 07 #Python

You might like

在字符串指定位置插入一段字符串的php代码

2010/02/16 PHP

php下获取Discuz论坛登录用户名、用户组、用户ID等信息的实现代码

2010/12/29 PHP

PHP 简易输出CSV表格文件的方法详解

2013/06/20 PHP

PHP中nowdoc和heredoc使用需要注意的一点

2014/03/21 PHP

Yii2验证器(Validator)用法分析

2016/07/23 PHP

CI框架中类的自动加载问题分析

2016/11/21 PHP

PHP验证类的封装与使用方法详解

2019/01/10 PHP

使用javascript获取flash加载的百分比的实现代码

2011/05/25 Javascript

浅谈JavaScript的Polymer框架中的事件绑定

2015/07/29 Javascript

使用CoffeeScrip优美方式编写javascript代码

2015/10/28 Javascript

javascript随机抽取0-100之间不重复的10个数

2016/02/25 Javascript

JavaScript常用函数工具集：lao-utils

2016/03/01 Javascript

vue2.0 + element UI 中 el-table 数据导出Excel的方法

2018/03/02 Javascript

JS 中可以提升幸福度的小技巧(可以识别更多另类写法)

2018/07/28 Javascript

jQuery md5加密插件jQuery.md5.js用法示例

2018/08/24 jQuery

用vue-cli开发vue时的代理设置方法

2018/09/20 Javascript

layui树形菜单动态遍历的例子

2019/09/23 Javascript

[02:53]DOTA2英雄基础教程山岭巨人小小

2013/12/09 DOTA

让python的Cookie.py模块支持冒号做key的方法

2010/12/28 Python

Django的数据模型访问多对多键值的方法

2015/07/21 Python

Python设计模式中单例模式的实现及在Tornado中的应用

2016/03/02 Python

解决python2.7 查询mysql时出现中文乱码

2016/10/09 Python

python 堆和优先队列的使用详解

2019/03/05 Python

一步步教你用python的scrapy编写一个爬虫

2019/04/17 Python

梅尔倒谱系数（MFCC）实现

2019/06/19 Python

python使用bs4爬取boss直聘静态页面

2020/10/10 Python

matplotlib教程——强大的python作图工具库

2020/10/15 Python

CSS3圆角和渐变2种常用功能详解

2016/01/06 HTML / CSS

用CSS3的box-reflect来制作倒影效果

2016/11/15 HTML / CSS

html5清空画布方法（三种）

2017/10/16 HTML / CSS

西班牙伏林航空公司：Vueling

2016/08/05 全球购物

茵宝(Umbro)英国官方商店：英国足球服装生产商

2016/12/29 全球购物

机电一体化大学生求职信

2013/11/08 职场文书

纺织工程专业推荐信

2014/09/08 职场文书

8个JS的reduce使用实例和reduce操作方式

2021/10/05 Javascript

Python 的演示平台支持 WSGI 接口的应用

2022/04/20 Python

python 下载文件的几种方式分享

1 、一般同步下载

2、 使用流式请求，requests.get方法的stream

3 、异步下载文件

4、 异步拆分下载文件

5、注意

2、使用流式请求，requests.get方法的stream

4、异步拆分下载文件