编程 Python

python实现壁纸批量下载代码实例

Posted in Python onJanuary 25, 2018

项目地址：https://github.com/jrainlau/wallpaper-downloader

前言

好久没有写文章了，因为最近都在适应新的岗位，以及利用闲暇时间学习python。这篇文章是最近的一个python学习阶段性总结，开发了一个爬虫批量下载某壁纸网站的高清壁纸。

注意：本文所属项目仅用于python学习，严禁作为其他用途使用！

初始化项目

项目使用了virtualenv来创建一个虚拟环境，避免污染全局。使用pip3直接下载即可：

pip3 install virtualenv

然后在合适的地方新建一个wallpaper-downloader目录，使用virtualenv创建名为venv的虚拟环境：

virtualenv venv
. venv/bin/activate

接下来创建依赖目录：

echo bs4 lxml requests > requirements.txt

最后yun下载安装依赖即可：

pip3 install -r requirements.txt

分析爬虫工作步骤

为了简单起见，我们直接进入分类为“aero”的壁纸列表页：http://wallpaperswide.com/aer...。

python实现壁纸批量下载代码实例

可以看到，这一页里面一共有10张可供下载的壁纸。但是由于这里显示的都是缩略图，作为壁纸来说清晰度是远远不够的，所以我们需要进入壁纸详情页，去找到高清的下载链接。从第一张壁纸点进去，可以看到一个新的页面：

python实现壁纸批量下载代码实例

因为我机器是Retina屏幕，所以我打算直接下载体积最大的那个以保证高清（红圈所示体积）。

了解了具体的步骤以后，就是通过开发者工具找到对应的dom节点，提取相应的url即可，这个过程就不再展开了，读者自行尝试即可，下面进入编码部分。

访问页面

新建一个download.py文件，然后引入两个库：

from bs4 import BeautifulSoup
import requests

接下来，编写一个专门用于访问url，然后返回页面html的函数：

def visit_page(url):
 headers = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'
 }
 r = requests.get(url, headers = headers)
 r.encoding = 'utf-8'
 soup = BeautifulSoup(r.text, 'lxml')
 return soup

为了防止被网站反爬机制击中，所以我们需要通过在header添加UA把爬虫伪装成正常的浏览器，然后指定utf-8编码，最后返回字符串格式的html。

提取链接

在获取了页面的html以后，就需要提取这个页面壁纸列表所对应的url了：

def get_paper_link(page):
 links = page.select('#content > div > ul > li > div > div a')
 collect = []
 for link in links:
  collect.append(link.get('href'))
 return collect

这个函数会把列表页所有壁纸详情的url给提取出来。

下载壁纸

有了详情页的地址以后，我们就可以进去挑选合适的size了。在对页面的dom结构分析后可以知道，每一个size都对应着一个链接：

python实现壁纸批量下载代码实例

所以第一步，就是把这些size对应的链接提取出来：

wallpaper_source = visit_page(link)
wallpaper_size_links = wallpaper_source.select('#wallpaper-resolutions > a')
size_list = []
for link in wallpaper_size_links:
 href = link.get('href')
 size_list.append({
  'size': eval(link.get_text().replace('x', '*')),
  'name': href.replace('/download/', ''),
  'url': href
 })

size_list就是这些链接的一个集合。为了方便接下来选出最高清（体积最大）的壁纸，在size中我使用了eval方法，直接把这里的5120x3200给计算出来，作为size的值。

获取了所有的集合之后，就可以使用max()方法选出最高清的一项出来了：

biggest_one = max(size_list, key = lambda item: item['size'])

这个biggest_one当中的url就是对应size的下载链接，接下来只需要通过requests库把链接的资源下载下来即可：

result = requests.get(PAGE_DOMAIN + biggest_one['url'])
if result.status_code == 200:
 open('wallpapers/' + biggest_one['name'], 'wb').write(result.content)

注意，首先你需要在根目录下创建一个wallpapers目录，否则运行时会报错。

整理一下，完整的download_wallpaper函数长这样：

def download_wallpaper(link):
 wallpaper_source = visit_page(PAGE_DOMAIN + link)
 wallpaper_size_links = wallpaper_source.select('#wallpaper-resolutions > a')
 size_list = []
 for link in wallpaper_size_links:
  href = link.get('href')
  size_list.append({
   'size': eval(link.get_text().replace('x', '*')),
   'name': href.replace('/download/', ''),
   'url': href
  })
 biggest_one = max(size_list, key = lambda item: item['size'])
 print('Downloading the ' + str(index + 1) + '/' + str(total) + ' wallpaper: ' + biggest_one['name'])
 result = requests.get(PAGE_DOMAIN + biggest_one['url'])

 if result.status_code == 200:
  open('wallpapers/' + biggest_one['name'], 'wb').write(result.content)

批量运行

上述的步骤仅仅能够下载第一个壁纸列表页的第一张壁纸。如果我们想下载多个列表页的全部壁纸，我们就需要循环调用这些方法。首先我们定义几个常量：

import sys
if len(sys.argv) != 4:
 print('3 arguments were required but only find ' + str(len(sys.argv) - 1) + '!')
 exit()
category = sys.argv[1]
try:
 page_start = [int(sys.argv[2])]
 page_end = int(sys.argv[3])
except:
 print('The second and third arguments must be a number but not a string!')
 exit()

这里通过获取命令行参数，指定了三个常量category, page_start和page_end，分别对应着壁纸分类，起始页页码，终止页页码。

为了方便起见，再定义两个url相关的常量：

PAGE_DOMAIN = 'http://wallpaperswide.com'
PAGE_URL = 'http://wallpaperswide.com/' + category + '-desktop-wallpapers/page/'

接下来就可以愉快地进行批量操作了，在此之前我们来定义一个start()启动函数：

def start():
 if page_start[0] <= page_end:
  print('Preparing to download the ' + str(page_start[0]) + ' page of all the "' + category + '" wallpapers...')
  PAGE_SOURCE = visit_page(PAGE_URL + str(page_start[0]))
  WALLPAPER_LINKS = get_paper_link(PAGE_SOURCE)
  page_start[0] = page_start[0] + 1
  for index, link in enumerate(WALLPAPER_LINKS):
   download_wallpaper(link, index, len(WALLPAPER_LINKS), start)

然后把之前的download_wallpaper函数再改写一下：

def download_wallpaper(link, index, total, callback):
 wallpaper_source = visit_page(PAGE_DOMAIN + link)
 wallpaper_size_links = wallpaper_source.select('#wallpaper-resolutions > a')
 size_list = []
 for link in wallpaper_size_links:
  href = link.get('href')
  size_list.append({
   'size': eval(link.get_text().replace('x', '*')),
   'name': href.replace('/download/', ''),
   'url': href
  })
 biggest_one = max(size_list, key = lambda item: item['size'])
 print('Downloading the ' + str(index + 1) + '/' + str(total) + ' wallpaper: ' + biggest_one['name'])
 result = requests.get(PAGE_DOMAIN + biggest_one['url'])
 if result.status_code == 200:
  open('wallpapers/' + biggest_one['name'], 'wb').write(result.content)

 if index + 1 == total:
  print('Download completed!\n\n')
  callback()

最后指定一下启动规则：

if __name__ == '__main__':
  start()

运行项目

在命令行输入如下代码开始测试：

python3 download.py aero 1 2

然后可以看到下列输出：

python实现壁纸批量下载代码实例

拿charles抓一下包，可以看到正在脚本正在平稳地运行中：

python实现壁纸批量下载代码实例

此时，下载脚本已经开发完毕，终于不用担心壁纸荒啦！

以上就是本次为大家整理的全部内容，大家有任何疑问可以在下方的留言区讨论，感谢你对三水点靠木的支持。

python实现壁纸批量下载代码实例

- Author -

laozhang

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python装饰器验证配置文件示例

Feb 24 Python

python网络编程学习笔记(五)：socket的一些补充

Jun 09 Python

使用Python开发windows GUI程序入门实例

Oct 23 Python

Python常用时间操作总结【取得当前时间、时间函数、应用等】

May 11 Python

浅谈pandas用groupby后对层级索引levels的处理方法

Nov 06 Python

使用python os模块复制文件到指定文件夹的方法

Aug 22 Python

Python实现平行坐标图的绘制(plotly)方式

Nov 22 Python

Python logging日志模块配置文件方式

Jul 12 Python

python 实现汉诺塔游戏

Nov 28 Python

PyCharm Ctrl+Shift+F 失灵的简单有效解决操作

Jan 15 Python

python 实现的车牌识别项目

Jan 25 Python

利用python调用摄像头的实例分析

Jun 07 Python

python命令行解析之parse_known_args(）函数和parse_args()使用区别介绍

Jan 24 #Python

Python动刷新抢12306火车票的代码(附源码)

Jan 24 #Python

python中的set实现不重复的排序原理

Jan 24 #Python

详解Python之unittest单元测试代码

Jan 24 #Python

python爬取拉勾网职位数据的方法

Jan 24 #Python

学习Python3 Dlib19.7进行人脸面部识别

Jan 24 #Python

Python实现的生成格雷码功能示例

Jan 24 #Python

You might like

PHP 反向排序和随机排序代码

2010/06/30 PHP

php模拟socket一次连接,多次发送数据的实现代码

2011/07/26 PHP

如何使用php输出时间格式

2013/08/31 PHP

thinkphp验证码显示不出来的解决方法

2014/03/29 PHP

PHP实现适用于自定义的验证码类

2016/06/15 PHP

ThinkPHP框架表单验证操作方法

2017/07/19 PHP

jquery ajax执行后台方法

2010/03/18 Javascript

基于jquery的textarea发布框限制文字字数输入(添加中文识别)

2012/02/16 Javascript

jquery form 加载数据示例

2014/04/21 Javascript

JavaScript实现判断图片是否加载完成的3种方法整理

2015/03/13 Javascript

jQuery Validate 数组全部验证问题

2017/01/12 Javascript

正则 js分转元带千分符号详解

2017/03/08 Javascript

javascript实现循环广告条效果

2017/12/12 Javascript

JS 使用 window对象的print方法实现分页打印功能

2018/05/16 Javascript

vue中前进刷新、后退缓存用户浏览数据和浏览位置的实例讲解

2018/09/21 Javascript

详解微信小程序-canvas绘制文字实现自动换行

2019/04/26 Javascript

vue-cli配置flexible过程详解

2019/07/04 Javascript

python类型强制转换long to int的代码

2013/02/10 Python

Python使用设计模式中的责任链模式与迭代器模式的示例

2016/03/02 Python

Python多进程分块读取超大文件的方法

2016/04/13 Python

使用Numpy读取CSV文件,并进行行列删除的操作方法

2018/07/04 Python

Python 字符串转换为整形和浮点类型的方法

2018/07/17 Python

Python解析命令行读取参数之argparse模块

2019/07/26 Python

pytorch打印网络结构的实例

2019/08/19 Python

浅析python redis的连接及相关操作

2019/11/07 Python

python 非线性规划方式(scipy.optimize.minimize)

2020/02/11 Python

python pandas.DataFrame.loc函数使用详解

2020/03/26 Python

Python接收手机短信的代码整理

2020/08/02 Python

Skyscanner阿联酋：全球领先的旅游搜索平台

2017/11/25 全球购物

英国大码女性时装零售商：Evans

2018/08/29 全球购物

Interhome丹麦：在线预订度假屋和公寓

2019/07/18 全球购物

在Ajax应用中信息是如何在浏览器和服务器之间传递的

2016/05/31 面试题

银行实习自我鉴定

2013/10/12 职场文书

2014年应急管理工作总结

2014/11/26 职场文书

护士自荐信怎么写

2015/03/06 职场文书

2016感恩母亲节校园广播稿

2015/12/17 职场文书