详解Python静态网页爬取获取高清壁纸


Posted in Python onApril 23, 2019

前言

在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤

一般地,我们去网上批量打开壁纸的时候一般操作如下:

1、打开壁纸网页

2、单击壁纸图(打开指定壁纸的页面)

3、选择分辨率(我们要下载高清的图)

4、保存图片

实际操作时,我们实现了如下几步网页地址的访问:打开了壁纸的网页→单击壁纸图打开指定页面→选择分辨率,点击后打开最终保存目标图片网页→保存图片

在爬虫的过程中我们就尝试通过模拟浏览器打开网页的操作,一步步获得、访问网页、最后获得目标图片的下载地址,对图片进行下载保存到指定路径中

*这些中间过程中网页的一些具体筛选条件的构造,需要打开指定页面的源代码去观察和寻找包含有目的链接的标签

具体实现项目与注释

这里我只想获得一些指定的图片,所以我先在网页上搜索“长门有希”,打开了一个搜索结果页面,发现在这个页面上就已经包含了同类型的其他壁纸链接,于是我一开始就把最初访问的目的地址设置为这个搜索结果页面

目标结果页面截图:

详解Python静态网页爬取获取高清壁纸

图中下标为"1/29"."2/29"为其他同类型目标壁纸,通过点击这些图片我们可以打开新的目标下载图片页面

这里我们查看一下网页源代码

详解Python静态网页爬取获取高清壁纸

图中黄色底的地方就是打开这些同类壁纸的目的地址(访问的时候需要加上前缀"http://desk.zol.com.cn")

现在我们可以尝试实现构建爬虫:

打开指定页面→筛选获得所有长门有希壁纸的目标下载页面链接

代码如下:

详解Python静态网页爬取获取高清壁纸

获得地址以后我们可以通过获取地址→打开指定页面→选择分辨率→获得目的下载地址→保存到本地指定路径中

在测试的时候我输出了一下上一步truelist中保存的内容

 详解Python静态网页爬取获取高清壁纸

可以看到保存的只是一个后缀,在访问的时候我们需要加上一个指定的前缀

实现代码如下(注释见代码):

详解Python静态网页爬取获取高清壁纸

 最后可以在自己的目标文件夹中看到爬下来的图片集~

详解Python静态网页爬取获取高清壁纸

以上所述是小编给大家介绍的Python爬取高清壁纸详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
在Python中使用CasperJS获取JS渲染生成的HTML内容的教程
Apr 09 Python
简化Python的Django框架代码的一些示例
Apr 20 Python
Python的Flask框架中web表单的教程
Apr 20 Python
python结合selenium获取XX省交通违章数据的实现思路及代码
Jun 26 Python
PyCharm+PySpark远程调试的环境配置的方法
Nov 29 Python
Python 带有参数的装饰器实例代码详解
Dec 06 Python
Python判断变量名是否合法的方法示例
Jan 28 Python
详解Pandas之容易让人混淆的行选择和列选择
Jul 10 Python
python全局变量引用与修改过程解析
Jan 07 Python
用pytorch的nn.Module构造简单全链接层实例
Jan 14 Python
windows+vscode安装paddleOCR运行环境的步骤
Nov 11 Python
分享一枚pycharm激活码适用所有pycharm版本我的pycharm2020.2.3激活成功
Nov 20 Python
Python matplotlib画图与中文设置操作实例分析
Apr 23 #Python
Python实现的删除重复文件或图片功能示例【去重】
Apr 23 #Python
详解Python 函数如何重载?
Apr 23 #Python
解决Django生产环境无法加载静态文件问题的解决
Apr 23 #Python
Python 存储字符串时节省空间的方法
Apr 23 #Python
Django页面数据的缓存与使用的具体方法
Apr 23 #Python
Python切片操作去除字符串首尾的空格
Apr 22 #Python
You might like
提升PHP执行速度全攻略(下)
2006/10/09 PHP
PHP UTF8编码内的繁简转换类
2009/07/20 PHP
php Smarty 字符比较代码
2011/02/27 PHP
Javascript 面向对象之重载
2010/05/04 Javascript
IE8下关于querySelectorAll()的问题
2010/05/13 Javascript
jQuery的实现原理的模拟代码 -3 事件处理
2010/08/03 Javascript
javascript监听鼠标滚轮事件浅析
2014/06/05 Javascript
jQuery解析Json实例详解
2015/11/24 Javascript
JS中的进制转换以及作用
2016/06/26 Javascript
详细谈谈AngularJS的子级作用域问题
2016/09/05 Javascript
Node.js + Redis Sorted Set实现任务队列
2016/09/19 Javascript
脚本div实现拖放功能(两种)
2017/02/13 Javascript
js实现点击展开隐藏效果(实例代码)
2018/09/28 Javascript
Vue slot用法(小结)
2018/10/22 Javascript
Vue中使用方法、计算属性或观察者的方法实例详解
2018/10/31 Javascript
Vue Echarts实现可视化世界地图代码实例
2019/05/07 Javascript
浅谈layer的Icon样式以及一些常用的layer窗口使用方法
2019/09/11 Javascript
JS实现audio音频剪裁剪切复制播放与上传(步骤详解)
2020/07/28 Javascript
[47:36]Optic vs Newbee 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
在Python中操作字符串之rstrip()方法的使用
2015/05/19 Python
python和ruby,我选谁?
2017/09/13 Python
Pandas探索之高性能函数eval和query解析
2017/10/28 Python
Python之Scrapy爬虫框架安装及使用详解
2017/11/16 Python
Python比较配置文件的方法实例详解
2019/06/06 Python
pyqt5实现绘制ui,列表窗口,滚动窗口显示图片的方法
2019/06/20 Python
如何使用Python实现自动化水军评论
2019/06/26 Python
Pycharm中安装wordcloud等库失败问题及终端通过pip安装的Python库如何添加到Pycharm解释器中(推荐)
2020/05/10 Python
如何用Matlab和Python读取Netcdf文件
2021/02/19 Python
中学生自我鉴定
2014/02/04 职场文书
查摆问题对照检查材料
2014/08/28 职场文书
2015年企业新年寄语
2014/12/08 职场文书
面试通知短信
2015/04/20 职场文书
2015年幼儿园中班工作总结
2015/04/25 职场文书
2016应届大学生自荐信模板
2016/01/28 职场文书
MongoDB支持的数据类型
2022/04/11 MongoDB
MySQL分区路径子分区再分区
2022/04/13 MySQL