Python爬虫图片懒加载技术 selenium和PhantomJS解析


Posted in Python onSeptember 18, 2019

一.什么是图片懒加载?

- 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from lxml import etree
if __name__ == "__main__":
   url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html'
   headers = {
     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
   }
   #获取页面文本数据
   response = requests.get(url=url,headers=headers)
   response.encoding = 'utf-8'
   page_text = response.text
   #解析页面数据(获取页面中的图片链接)
   #创建etree对象
   tree = etree.HTML(page_text)
   div_list = tree.xpath('//div[@id="container"]/div')
   #解析获取图片地址和图片的名称
   for div in div_list:
     image_url = div.xpath('.//img/@src')
     image_name = div.xpath('.//img/@alt')
     print(image_url) #打印图片链接
     print(image_name)#打印图片名称

运行结果观察发现,我们可以获取图片的名称,但是链接获取的为空,检查后发现xpath表达式也没有问题,究其原因出在了哪里呢?

- 图片懒加载概念:

图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的技术就被称为“图片懒加载”。

- 网站一般如何实现图片懒加载技术呢?

在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中,会动态将伪属性替换成src属性,完成图片的加载。

- 站长素材案例后续分析:通过细致观察页面的结构后发现,网页中图片的链接是存储在了src2这个伪属性中

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from lxml import etree

if __name__ == "__main__":
   url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html'
   headers = {
     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
   }
   #获取页面文本数据
   response = requests.get(url=url,headers=headers)
   response.encoding = 'utf-8'
   page_text = response.text
   #解析页面数据(获取页面中的图片链接)
   #创建etree对象
   tree = etree.HTML(page_text)
   div_list = tree.xpath('//div[@id="container"]/div')
   #解析获取图片地址和图片的名称
   for div in div_list:
     image_url = div.xpath('.//img/@src'2) #src2伪属性
     image_name = div.xpath('.//img/@alt')
     print(image_url) #打印图片链接
     print(image_name)#打印图片名称

二.selenium

- 什么是selenium?

是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。

- 环境搭建

1.安装selenum:pip install selenium

2.获取某一款浏览器的驱动程序(以谷歌浏览器为例) 

2.1 谷歌浏览器驱动下载地址

2.2 下载的驱动程序必须和浏览器的版本统一

大家可以根据http://blog.csdn.net/huilan_same/article/details/51896672中提供的版本映射表进行对应

- 效果展示:大家可以将如下代码运行,观看效果

from selenium import webdriver
from time import sleep

# 后面是你的浏览器驱动位置,记得前面加r'','r'是防止字符转义的
driver = webdriver.Chrome(r'驱动程序路径')
# 用get打开百度页面
driver.get("http://www.baidu.com")
# 查找页面的“设置”选项,并进行点击
driver.find_elements_by_link_text('设置')[0].click()
sleep(2)
# # 打开设置后找到“搜索设置”选项,设置为每页显示50条
driver.find_elements_by_link_text('搜索设置')[0].click()
sleep(2)

# 选中每页显示50条
m = driver.find_element_by_id('nr')
sleep(2)
m.find_element_by_xpath('//*[@id="nr"]/option[3]').click()
m.find_element_by_xpath('.//option[3]').click()
sleep(2)

# 点击保存设置
driver.find_elements_by_class_name("prefpanelgo")[0].click()
sleep(2)

# 处理弹出的警告页面  确定accept() 和 取消dismiss()
driver.switch_to_alert().accept()
sleep(2)
# 找到百度的输入框,并输入 美女
driver.find_element_by_id('kw').send_keys('美女')
sleep(2)
# 点击搜索按钮
driver.find_element_by_id('su').click()
sleep(2)
# 在打开的页面中找到“Selenium - 开源中国社区”,并打开这个页面
driver.find_elements_by_link_text('美女_百度图片')[0].click()
sleep(3)
# 关闭浏览器
driver.quit()

- 代码操作:

#导包
from selenium import webdriver 
#创建浏览器对象,通过该对象可以操作浏览器
browser = webdriver.Chrome('驱动路径')
#使用浏览器发起指定请求
browser.get(url)

#使用下面的方法,查找指定的元素进行操作即可
  find_element_by_id      根据id找节点
  find_elements_by_name     根据name找
  find_elements_by_xpath    根据xpath查找
  find_elements_by_tag_name   根据标签名找
  find_elements_by_class_name  根据class名字查找

三.PhantomJS

PhantomJS是一款无界面的浏览器,其自动化操作流程和上述操作谷歌浏览器是一致的。由于是无界面的,为了能够展示自动化操作流程,PhantomJS为用户提供了一个截屏的功能,使用save_screenshot函数实现。

-案例:

from selenium import webdriver
import time
# phantomjs路径
path = r'PhantomJS驱动路径'
browser = webdriver.PhantomJS(path)
# 打开百度
url = 'http://www.baidu.com/'
browser.get(url)
time.sleep(3)
browser.save_screenshot(r'phantomjs\baidu.png')
# 查找input输入框
my_input = browser.find_element_by_id('kw')
# 往框里面写文字
my_input.send_keys('美女')
time.sleep(3)
#截屏
browser.save_screenshot(r'phantomjs\meinv.png')
# 查找搜索按钮
button = browser.find_elements_by_class_name('s_btn')[0]
button.click()
time.sleep(3)
browser.save_screenshot(r'phantomjs\show.png')
time.sleep(3)
browser.quit()

【重点】selenium+phantomjs 就是爬虫终极解决方案:有些网站上的内容信息是通过动态加载js形成的,所以使用普通爬虫程序无法回去动态加载的js内容。例如豆瓣电影中的电影信息是通过下拉操作动态加载更多的电影信息。

综合操作:

- 需求:尽可能多的爬取豆瓣网中的电影信息

from selenium import webdriver
from time import sleep
import time

if __name__ == '__main__':
  url = 'https://movie.douban.com/typerank?type_name=%E6%81%90%E6%80%96&type=20&interval_id=100:90&action='
  # 发起请求前,可以让url表示的页面动态加载出更多的数据
  path = r'C:\Users\Administrator\Desktop\爬虫授课\day05\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe'
  # 创建无界面的浏览器对象
  bro = webdriver.PhantomJS(path)
  # 发起url请求
  bro.get(url)
  time.sleep(3)
  # 截图
  bro.save_screenshot('1.png')

  # 执行js代码(让滚动条向下偏移n个像素(作用:动态加载了更多的电影信息))
  js = 'document.body.scrollTop=2000'
  bro.execute_script(js) # 该函数可以执行一组字符串形式的js代码
  time.sleep(4)
  bro.save_screenshot('2.png')
  time.sleep(2)

  # 使用爬虫程序爬去当前url中的内容
  html_source = bro.page_source # 该属性可以获取当前浏览器的当前页的源码(html)
  with open('./source.html', 'w', encoding='utf-8') as fp:
    fp.write(html_source)
  bro.quit()

四.谷歌无头浏览器

由于PhantomJs最近已经停止了更新和维护,所以推荐大家可以使用谷歌的无头浏览器,是一款无界面的谷歌浏览器。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
# 创建一个参数对象,用来控制chrome以无界面模式打开
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# 驱动路径
path = r'C:\Users\ZBLi\Desktop\1801\day05\ziliao\chromedriver.exe'
# 创建浏览器对象
browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options)
# 上网
url = 'http://www.baidu.com/'
browser.get(url)
time.sleep(3)
browser.save_screenshot('baidu.png')
browser.quit()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python冒泡排序注意要点实例详解
Sep 09 Python
python @property的用法及含义全面解析
Feb 01 Python
Python实现字符串的逆序 C++字符串逆序算法
May 28 Python
Python实现输入二叉树的先序和中序遍历,再输出后序遍历操作示例
Jul 27 Python
基于python实现百度翻译功能
May 09 Python
pytorch索引查找 index_select的例子
Aug 18 Python
python实现简单日志记录库glog的使用
Dec 13 Python
python with (as)语句实例详解
Feb 04 Python
pygame实现飞机大战
Mar 11 Python
python爬虫---requests库的用法详解
Sep 28 Python
Jupyter notebook命令和编辑模式常用快捷键汇总
Nov 17 Python
scrapy处理python爬虫调度详解
Nov 23 Python
python rsa实现数据加密和解密、签名加密和验签功能
Sep 18 #Python
决策树剪枝算法的python实现方法详解
Sep 18 #Python
python生成requirements.txt的两种方法
Sep 18 #Python
python2与python3爬虫中get与post对比解析
Sep 18 #Python
python中class的定义及使用教程
Sep 18 #Python
django创建超级用户过程解析
Sep 18 #Python
python实现网站微信登录的示例代码
Sep 18 #Python
You might like
php开启openssl的方法
2014/05/15 PHP
thinkphp缓存技术详解
2014/12/09 PHP
php采集神器cURL使用方法详解
2016/02/19 PHP
mysql alter table命令修改表结构实例详解
2016/09/24 PHP
php微信开发之关注事件
2018/06/14 PHP
js判断IE浏览器版本过低示例代码
2013/11/22 Javascript
js运动应用实例解析
2015/12/28 Javascript
jQuery实现鼠标选文字发新浪微博的方法
2016/04/02 Javascript
javascript执行环境及作用域详解
2016/05/05 Javascript
jQuery点击导航栏选中更换样式的实现代码
2017/01/23 Javascript
理解javascript中的Function.prototype.bind的方法
2017/02/03 Javascript
JavaScript 数组去重并统计重复元素出现的次数实例
2017/12/14 Javascript
学习Vue组件实例
2018/04/28 Javascript
vue.js 2.0实现简单分页效果
2019/07/29 Javascript
JavaScript实现雪花飘落效果
2020/12/27 Javascript
python在linux中输出带颜色的文字的方法
2014/06/19 Python
linux平台使用Python制作BT种子并获取BT种子信息的方法
2017/01/20 Python
python 环境变量和import模块导入方法(详解)
2017/07/11 Python
python实现自动发送邮件发送多人、群发、多附件的示例
2018/01/23 Python
python 获取当天每个准点时间戳的实例
2018/05/22 Python
django 实现celery动态设置周期任务执行时间
2019/11/19 Python
Django 项目布局方法(值得推荐)
2020/03/22 Python
Python如何使用PIL Image制作GIF图片
2020/05/16 Python
python:HDF和CSV存储优劣对比分析
2020/06/08 Python
通过代码实例解析Pytest运行流程
2020/08/20 Python
python 30行代码实现蚂蚁森林自动偷能量
2021/02/08 Python
Bose加拿大官方网站:美国知名音响品牌
2019/03/21 全球购物
自我鉴定的范文
2013/10/03 职场文书
元旦活动感言
2014/03/08 职场文书
护士优质服务演讲稿
2014/08/26 职场文书
党员民主生活会整改措施
2014/09/26 职场文书
中学生的1000字检讨书
2014/10/11 职场文书
本溪关门山导游词
2015/02/09 职场文书
财务管理制度范本
2015/08/04 职场文书
使用Bandicam录制鼠标指针并附带点击声音,还可以添加点击动画效果
2022/04/11 数码科技
吉利入股戴姆勒后smart“长大了”
2022/04/21 数码科技