Python爬虫图片懒加载技术 selenium和PhantomJS解析


Posted in Python onSeptember 18, 2019

一.什么是图片懒加载?

- 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from lxml import etree
if __name__ == "__main__":
   url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html'
   headers = {
     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
   }
   #获取页面文本数据
   response = requests.get(url=url,headers=headers)
   response.encoding = 'utf-8'
   page_text = response.text
   #解析页面数据(获取页面中的图片链接)
   #创建etree对象
   tree = etree.HTML(page_text)
   div_list = tree.xpath('//div[@id="container"]/div')
   #解析获取图片地址和图片的名称
   for div in div_list:
     image_url = div.xpath('.//img/@src')
     image_name = div.xpath('.//img/@alt')
     print(image_url) #打印图片链接
     print(image_name)#打印图片名称

运行结果观察发现,我们可以获取图片的名称,但是链接获取的为空,检查后发现xpath表达式也没有问题,究其原因出在了哪里呢?

- 图片懒加载概念:

图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的技术就被称为“图片懒加载”。

- 网站一般如何实现图片懒加载技术呢?

在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中,会动态将伪属性替换成src属性,完成图片的加载。

- 站长素材案例后续分析:通过细致观察页面的结构后发现,网页中图片的链接是存储在了src2这个伪属性中

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from lxml import etree

if __name__ == "__main__":
   url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html'
   headers = {
     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
   }
   #获取页面文本数据
   response = requests.get(url=url,headers=headers)
   response.encoding = 'utf-8'
   page_text = response.text
   #解析页面数据(获取页面中的图片链接)
   #创建etree对象
   tree = etree.HTML(page_text)
   div_list = tree.xpath('//div[@id="container"]/div')
   #解析获取图片地址和图片的名称
   for div in div_list:
     image_url = div.xpath('.//img/@src'2) #src2伪属性
     image_name = div.xpath('.//img/@alt')
     print(image_url) #打印图片链接
     print(image_name)#打印图片名称

二.selenium

- 什么是selenium?

是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。

- 环境搭建

1.安装selenum:pip install selenium

2.获取某一款浏览器的驱动程序(以谷歌浏览器为例) 

2.1 谷歌浏览器驱动下载地址

2.2 下载的驱动程序必须和浏览器的版本统一

大家可以根据http://blog.csdn.net/huilan_same/article/details/51896672中提供的版本映射表进行对应

- 效果展示:大家可以将如下代码运行,观看效果

from selenium import webdriver
from time import sleep

# 后面是你的浏览器驱动位置,记得前面加r'','r'是防止字符转义的
driver = webdriver.Chrome(r'驱动程序路径')
# 用get打开百度页面
driver.get("http://www.baidu.com")
# 查找页面的“设置”选项,并进行点击
driver.find_elements_by_link_text('设置')[0].click()
sleep(2)
# # 打开设置后找到“搜索设置”选项,设置为每页显示50条
driver.find_elements_by_link_text('搜索设置')[0].click()
sleep(2)

# 选中每页显示50条
m = driver.find_element_by_id('nr')
sleep(2)
m.find_element_by_xpath('//*[@id="nr"]/option[3]').click()
m.find_element_by_xpath('.//option[3]').click()
sleep(2)

# 点击保存设置
driver.find_elements_by_class_name("prefpanelgo")[0].click()
sleep(2)

# 处理弹出的警告页面  确定accept() 和 取消dismiss()
driver.switch_to_alert().accept()
sleep(2)
# 找到百度的输入框,并输入 美女
driver.find_element_by_id('kw').send_keys('美女')
sleep(2)
# 点击搜索按钮
driver.find_element_by_id('su').click()
sleep(2)
# 在打开的页面中找到“Selenium - 开源中国社区”,并打开这个页面
driver.find_elements_by_link_text('美女_百度图片')[0].click()
sleep(3)
# 关闭浏览器
driver.quit()

- 代码操作:

#导包
from selenium import webdriver 
#创建浏览器对象,通过该对象可以操作浏览器
browser = webdriver.Chrome('驱动路径')
#使用浏览器发起指定请求
browser.get(url)

#使用下面的方法,查找指定的元素进行操作即可
  find_element_by_id      根据id找节点
  find_elements_by_name     根据name找
  find_elements_by_xpath    根据xpath查找
  find_elements_by_tag_name   根据标签名找
  find_elements_by_class_name  根据class名字查找

三.PhantomJS

PhantomJS是一款无界面的浏览器,其自动化操作流程和上述操作谷歌浏览器是一致的。由于是无界面的,为了能够展示自动化操作流程,PhantomJS为用户提供了一个截屏的功能,使用save_screenshot函数实现。

-案例:

from selenium import webdriver
import time
# phantomjs路径
path = r'PhantomJS驱动路径'
browser = webdriver.PhantomJS(path)
# 打开百度
url = 'http://www.baidu.com/'
browser.get(url)
time.sleep(3)
browser.save_screenshot(r'phantomjs\baidu.png')
# 查找input输入框
my_input = browser.find_element_by_id('kw')
# 往框里面写文字
my_input.send_keys('美女')
time.sleep(3)
#截屏
browser.save_screenshot(r'phantomjs\meinv.png')
# 查找搜索按钮
button = browser.find_elements_by_class_name('s_btn')[0]
button.click()
time.sleep(3)
browser.save_screenshot(r'phantomjs\show.png')
time.sleep(3)
browser.quit()

【重点】selenium+phantomjs 就是爬虫终极解决方案:有些网站上的内容信息是通过动态加载js形成的,所以使用普通爬虫程序无法回去动态加载的js内容。例如豆瓣电影中的电影信息是通过下拉操作动态加载更多的电影信息。

综合操作:

- 需求:尽可能多的爬取豆瓣网中的电影信息

from selenium import webdriver
from time import sleep
import time

if __name__ == '__main__':
  url = 'https://movie.douban.com/typerank?type_name=%E6%81%90%E6%80%96&type=20&interval_id=100:90&action='
  # 发起请求前,可以让url表示的页面动态加载出更多的数据
  path = r'C:\Users\Administrator\Desktop\爬虫授课\day05\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe'
  # 创建无界面的浏览器对象
  bro = webdriver.PhantomJS(path)
  # 发起url请求
  bro.get(url)
  time.sleep(3)
  # 截图
  bro.save_screenshot('1.png')

  # 执行js代码(让滚动条向下偏移n个像素(作用:动态加载了更多的电影信息))
  js = 'document.body.scrollTop=2000'
  bro.execute_script(js) # 该函数可以执行一组字符串形式的js代码
  time.sleep(4)
  bro.save_screenshot('2.png')
  time.sleep(2)

  # 使用爬虫程序爬去当前url中的内容
  html_source = bro.page_source # 该属性可以获取当前浏览器的当前页的源码(html)
  with open('./source.html', 'w', encoding='utf-8') as fp:
    fp.write(html_source)
  bro.quit()

四.谷歌无头浏览器

由于PhantomJs最近已经停止了更新和维护,所以推荐大家可以使用谷歌的无头浏览器,是一款无界面的谷歌浏览器。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
# 创建一个参数对象,用来控制chrome以无界面模式打开
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# 驱动路径
path = r'C:\Users\ZBLi\Desktop\1801\day05\ziliao\chromedriver.exe'
# 创建浏览器对象
browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options)
# 上网
url = 'http://www.baidu.com/'
browser.get(url)
time.sleep(3)
browser.save_screenshot('baidu.png')
browser.quit()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
web.py中调用文件夹内模板的方法
Aug 26 Python
Python连接SQLServer2000的方法详解
Apr 19 Python
Python+matplotlib实现填充螺旋实例
Jan 15 Python
用Python写脚本,实现完全备份和增量备份的示例
Apr 29 Python
解决pandas中读取中文名称的csv文件报错的问题
Jul 04 Python
Python 字符串转换为整形和浮点类型的方法
Jul 17 Python
详解Python传入参数的几种方法
May 16 Python
Python解析命令行读取参数之argparse模块
Jul 26 Python
Python实现非正太分布的异常值检测方式
Dec 09 Python
PyTorch中的padding(边缘填充)操作方式
Jan 03 Python
Python图像处理二值化方法实例汇总
Jul 24 Python
用Python进行websocket接口测试
Oct 16 Python
python rsa实现数据加密和解密、签名加密和验签功能
Sep 18 #Python
决策树剪枝算法的python实现方法详解
Sep 18 #Python
python生成requirements.txt的两种方法
Sep 18 #Python
python2与python3爬虫中get与post对比解析
Sep 18 #Python
python中class的定义及使用教程
Sep 18 #Python
django创建超级用户过程解析
Sep 18 #Python
python实现网站微信登录的示例代码
Sep 18 #Python
You might like
input file获得文件根目录简单实现
2013/04/26 PHP
Zend Framework教程之动作的基类Zend_Controller_Action详解
2016/03/07 PHP
浅谈PHP发送HTTP请求的几种方式
2017/07/25 PHP
Laravel框架路由管理简单示例
2019/05/07 PHP
PHP 范围解析操作符(::)用法分析【访问静态成员和类常量】
2020/04/14 PHP
Laravel中如何轻松容易的输出完整的SQL语句
2020/07/26 PHP
一个高效的JavaScript压缩工具下载集合
2007/03/06 Javascript
在模板页面的js使用办法
2010/04/01 Javascript
30个精美的jQuery幻灯片效果插件和教程
2011/08/23 Javascript
javascript打印大全(打印页面设置/打印预览代码)
2013/03/29 Javascript
js复制网页内容并兼容各主流浏览器的代码
2013/12/17 Javascript
jquery 提示信息显示后自动消失的具体实现
2013/12/18 Javascript
jQuery 移动端artEditor富文本编辑器
2016/01/11 Javascript
详解如何在 vue 项目里正确地引用 jquery 和 jquery-ui的插件
2017/06/01 jQuery
vue3.0 CLI - 2.2 - 组件 home.vue 的初步改造
2018/09/14 Javascript
vue-cli3.0 脚手架搭建项目的过程详解
2018/10/19 Javascript
微信小程序多列表渲染数据开关互不影响的实现
2020/06/05 Javascript
node.js 如何监视文件变化
2020/09/01 Javascript
在antd4.0中Form使用initialValue操作
2020/11/02 Javascript
Python中lambda的用法及其与def的区别解析
2014/07/28 Python
Python自动登录126邮箱的方法
2015/07/10 Python
Python多层嵌套list的递归处理方法(推荐)
2016/06/08 Python
Python实现信用卡系统(支持购物、转账、存取钱)
2016/06/24 Python
python判断设备是否联网的方法
2018/06/29 Python
python3利用tcp实现文件夹远程传输
2018/07/28 Python
python中dir()与__dict__属性的区别浅析
2018/12/10 Python
APM Monaco中国官网:来自摩纳哥珠宝品牌
2017/12/27 全球购物
新加坡网上美容店:Hermo新加坡
2019/06/19 全球购物
兰蔻法国官方网站:Lancôme法国
2020/02/22 全球购物
外企测试工程师面试题
2015/02/01 面试题
大学应届生求职简历的自我评价
2013/10/08 职场文书
社区义诊活动总结
2014/04/30 职场文书
2014年艾滋病防治工作总结
2014/12/10 职场文书
常务副总经理岗位职责
2015/02/02 职场文书
今日说法观后感
2015/06/08 职场文书
爱国影片观后感
2015/06/18 职场文书