编程 Python

利用Python多线程实现图片下载器

Posted in Python onMarch 25, 2022

导语

之前有很多小伙伴说想学习一下多线程图片下载器，虽然好像已经过去很久了，不过还是上来安排一波吧。至于题目为什么说是构建一个小型数据集，因为公众号之后的文章应该还会用到它来构建一些简单的图像分类数据集，换句话说，后续一段时间，公众号会主要写一些深度学习机器学习相关的文章，下期文章揭晓具体内容。

废话不多说，让我们愉快地开始近期最后一篇爬虫文章~

开发工具

Python版本：3.7.8

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

原理简介

我看了下，发现大家基本都是从百度，必应和谷歌来根据给定的关键字下载相关的图片数据的，所以我们也选用这三个数据源。具体而言，百度的图片搜索接口如下：

'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&lm=7&fp=result&ie=utf-8&oe=utf-8&st=-1&word={}&queryWord={}&face=0&pn={}&rn={}'

为了可以多线程地进行图片搜索，我们先根据想要下载的图片数量来构造所有请求页的链接如下：

search_urls, pagesize = [], 30
for pn in range(math.ceil(search_limits * 1.2 / pagesize)):
    search_url = base_url.format(quote(keyword), quote(keyword), pn * pagesize, pagesize)
    search_urls.append(search_url)

然后再多线程请求所有构造好的搜索链接：

# 多线程请求获取所有图片链接
def searchapi(self, search_urls, image_urls, bar):
    while len(search_urls) > 0:
        search_url = search_urls.pop(0)
        response = self.get(search_url)
        if response is None: 
            bar()
            continue
        response.encoding = 'utf-8'
        response_json = json.loads(response.text.replace(r"\'", ""), encoding='utf-8', strict=False)
        for item in response_json['data']:
            if 'objURL' in item.keys():
                image_urls.add(self.parseurl(item['objURL']))
            elif 'replaceUrl' in item.keys() and len(item['replaceUrl']) == 2:
                image_urls.add(item['replaceUrl'][1]['ObjURL'])
        bar()
task_pool, image_urls = [], set()
with alive_bar(min(len(search_urls), search_limits)) as bar:
    for idx in range(num_threadings):
        task = threading.Thread(
            target=searchapi,
            args=(self, search_urls, image_urls, bar)
        )
        task_pool.append(task)
        task.start()
    for task in task_pool: task.join()

线程结束的条件为我们构造的所有请求页链接search_urls全部被用完。这里我们用的最基本的python的threading库，感觉python应该还有很多更加好用的多线程库，感兴趣的小伙伴可以自己查查资料，不必拘泥于我写的内容。threading库的话调用方便，只需要target指定目标函数，args指定目标函数输入的参数，然后start一下就行，所以我图省事就直接用它了。

类似地，我们也可以根据得到的image_urls写个多线程的图片下载器：

'''下载'''
def download(self, keyword, search_limits=1000, num_threadings=5, savedir='outputs'):
    touchdir(savedir)
    # 获得image_urls
    self.logging(f'Start to search images from {self.source_name}')
    image_urls = self.search(keyword, search_limits, num_threadings)
    # 多线程下载图片
    self.logging(f'Start to download images from {self.source_name}')
    def downloadapi(self, savepaths, image_urls, bar):
        assert len(savepaths) == len(image_urls)
        while len(image_urls) > 0:
            savepath, image_url = savepaths.pop(0), image_urls.pop(0)
            response = self.get(image_url)
            if response is None: 
                bar()
                continue
            with open(savepath, 'wb') as fp: fp.write(response.content)
            filetype = imghdr.what(savepath)
            if filetype in ['jpg', 'jpeg', 'png', 'bmp', 'gif']:
                savepath_correct = f'{savepath}.{filetype}'
                shutil.move(savepath, savepath_correct)
            else:
                os.remove(savepath)
            bar()
    task_pool, savepaths = [], []
    for idx in range(len(image_urls)):
        savename = f'image_{str(idx).zfill(8)}'
        savepaths.append(os.path.join(savedir, savename))
    with alive_bar(len(image_urls)) as bar:
        for idx in range(num_threadings):
            task = threading.Thread(
                target=downloadapi,
                args=(self, savepaths, image_urls, bar)
            )
            task_pool.append(task)
            task.start()
        for task in task_pool: task.join()

然后必应的图片搜索接口如下：

# 构建所有urls
base_url = 'https://cn.bing.com/images/async?q={}&first={}&count={}&cw=1536&ch=240&relp={}&tsc=ImageBasicHover&datsrc=I&layout=RowBased&mmasync=1&dgState=x*1063_y*768_h*186_c*5_i*71_r*10&IG=D6A4AD486F3A49F1BE164BC50750D641&SFX=3&iid=images.5555'
search_urls, pagesize = [], 35
for pn in range(math.ceil(search_limits * 1.2 / pagesize)):
    search_url = base_url.format(quote(keyword), pn * pagesize, pagesize, pagesize)
    search_urls.append(search_url)

谷歌的图片搜索接口如下：

# 构建所有urls
base_url = 'https://www.google.com/search?'
search_urls, pagesize = [], 20
for pn in range(math.ceil(search_limits * 1.2 / pagesize)):
    params = {
        'q': keyword,
        'ijn': pn,
        'start': pn * pagesize,
        'tbs': '',
        'tbm': 'isch',
    }
    search_urls.append(base_url + urlencode(params))

具体的多线程搜索和下载图片的写法和百度的类似，大功告成啦。

效果展示

你只需要pip安装一下，就可以直接在终端运行了。安装命令如下：

pip install pyimagedl

使用方式如下：

Usage: imagedl [OPTIONS]

Options:
  --version                  Show the version and exit.
  -k, --keyword TEXT         想要搜索下载的图片关键字, 若不指定, 则进入imagedl终端版
  -s, --savedir TEXT         下载的图片的保存路径
  -t, --target TEXT          指定图片搜索下载的平台, 例如"baidu"
  -l, --limits INTEGER       下载的图片数量
  -n, --nthreadings INTEGER  使用的线程数量
  --help                     Show this message and exit.

例如，在终端输入：

imagedl -k 狗狗 -s dogs -t baidu -l 1000

利用Python多线程实现图片下载器

到此这篇关于利用Python多线程实现图片下载器的文章就介绍到这了,更多相关Python图片下载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

利用Python多线程实现图片下载器

- Author -

Charles的皮卡丘

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用正则表达式检测密码强度源码分享

Jun 11 Python

Python json 错误xx is not JSON serializable解决办法

Mar 15 Python

Python实现单词翻译功能

Jun 06 Python

Python有序字典简单实现方法示例

Sep 28 Python

通过python的matplotlib包将Tensorflow数据进行可视化的方法

Jan 09 Python

Django生成PDF文档显示在网页上以及解决PDF中文显示乱码的问题

Jul 04 Python

python3格式化字符串 f-string的高级用法(推荐)

Mar 04 Python

python实现对变位词的判断方法

Apr 05 Python

使用Python Tkinter实现剪刀石头布小游戏功能

Oct 23 Python

Python爬虫之爬取最新更新的小说网站

May 06 Python

python实现过滤敏感词

May 08 Python

python必学知识之文件操作（建议收藏）

May 30 Python

Python实现灰色关联分析与结果可视化的详细代码

聊聊基于pytorch实现Resnet对本地数据集的训练问题

pycharm安装深度学习pytorch的d2l包失败问题解决

利用For循环遍历Python字典的三种方法实例

Mar 25 #Python

Python装饰器详细介绍

Mar 25 #Python

python中数组和列表的简单实例

Mar 25 #Python

Python if else条件语句形式详解

You might like

php防注

2007/01/15 PHP

PHP MYSQL乱码问题,使用SET NAMES utf8校正

2009/11/30 PHP

判断JavaScript对象是否可用的最正确方法分析

2008/10/03 Javascript

解析window.open的使用方法总结

2013/06/19 Javascript

JS操作数据库的实例代码

2013/10/17 Javascript

document.getElementById获取控件对象为空的解决方法

2013/11/20 Javascript

浅析JavaScript原型继承的陷阱

2013/12/03 Javascript

JS中使用sort结合localeCompare实现中文排序实例

2014/07/23 Javascript

jQuery操作DOM之获取表单控件的值

2015/01/23 Javascript

Bootstrap项目实战之子栏目资讯内容

2016/04/25 Javascript

整理JavaScript对DOM中各种类型的元素的常用操作

2016/05/05 Javascript

使用jQuery监听扫码枪输入并禁止手动输入的实现方法(推荐)

2017/03/21 jQuery

JavaScript截屏功能的实现代码

2017/07/28 Javascript

js中json对象和字符串的理解及相互转化操作实现方法

2017/09/22 Javascript

JavaScript实现快速排序的方法分析

2018/01/10 Javascript

js将键值对字符串转为json字符串的方法

2018/03/30 Javascript

详解在vue-cli项目下简单使用mockjs模拟数据

2018/10/19 Javascript

详解babel升级到7.X采坑总结

2019/05/12 Javascript

JavaScript实现移动端带transition动画的轮播效果

2020/03/24 Javascript

[01:30]2016国际邀请赛中国区预选赛神秘商店火爆开启

2016/06/26 DOTA

Python实现扫描指定目录下的子目录及文件的方法

2014/07/16 Python

python结合shell查询google关键词排名的实现代码

2016/02/27 Python

DES加密解密算法之python实现版(图文并茂)

2018/12/06 Python

用python wxpy管理微信公众号并利用微信获取自己的开源数据

2019/07/30 Python

python定义类的简单用法

2020/07/24 Python

python 读取串口数据的示例

2020/11/09 Python

极简的HTML5模版

2015/07/09 HTML / CSS

总会计师岗位职责

2014/02/19 职场文书

2014年财务科工作总结

2014/11/11 职场文书

2014年学校食堂工作总结

2014/11/25 职场文书

2015年小学图书室工作总结

2015/05/18 职场文书

2016计算机专业毕业生自荐信

2016/01/28 职场文书

uwsgi+nginx代理Django无法访问静态资源的解决

2021/05/10 Servers

Java使用JMeter进行高并发测试

2021/11/23 Java/Android

从结婚开始的恋爱故事。小说《我的美好婚事》TV动画化决定

2022/04/07 日漫

阿里云ECS云服务器快照的概念以及如何使用

2022/04/21 Servers