编程 Python

浅谈python爬虫使用Selenium模拟浏览器行为

Posted in Python onFebruary 23, 2018

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。

分析

他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。

headers = {
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
}

data=requests.get("https://tieba.baidu.com/index.html",headers=headers)
html=BeautifulSoup(data.text,'lxml')

前面提到过，有部分图片是动态加载的，那么首先我们得弄清楚，这部分图片是怎么动态加载的。在浏览器中打开百度贴吧的首页，可以明显的看到，在往下滚动滚动条的时候，当滚动到底部的时候，滚动条缩短了，并向上移动了一段距离。这个现象也正是有DOM元素动态的添加到了html文档的一个表现。动态加载数据无非就是ajax请求，而ajax本质上就是XMLHttpRequest请求(简称xhr)。在谷歌浏览器中，我们可以通过开发者工具的network面板来监测xhr请求。

刚打开首页时的xhr请求，这里的请求都和要爬取的图片无关。

浅谈python爬虫使用Selenium模拟浏览器行为

滚动条向下第1次滚动到底部，这里请求的是第20-40条热门动态，包含要爬取图片。

浅谈python爬虫使用Selenium模拟浏览器行为

滚动条向下第2次滚动到底部，这里请求的是第40-60条热门动态，包含要爬取图片。并且返回的的has_more:false表明没有跟多数据了。

浅谈python爬虫使用Selenium模拟浏览器行为

滚动条向下第3次滚动到底部，再无xhr请求。

解决方案

根据上面的分析，我们已经明白，单纯使用BeautifulSoup进行爬虫的时候，只能爬取到1-20条热门动态里面的图片。为了爬取到完整的热门动态里面的图片，我们则需要模拟浏览器的滚动条滚动，让网页去触发xhr请求更多的热门动态。

在python中，如果需要模拟浏览器的行为，可以使用selenium库。selenium库是一个自动化测试框架，可以用来模拟测试浏览器的各种行为，这里我们使用它来模拟浏览器打开百度贴吧的首页，并模拟滚动条向下滚动到底部的操作。

安装

pip install selenium

下载浏览器驱动

火狐浏览器驱动，其下载地址是：https://github.com/mozilla/geckodriver/releases

谷歌浏览器驱动，其下载地址是：http://chromedriver.storage.googleapis.com/index.html?path=2.33/

opera浏览器驱动，其下载地址是：https://github.com/operasoftware/operachromiumdriver/releases

对照自己电脑安装的浏览器和对应的版本，分别从上面的地址下载驱动文件，也可以从我的github项目中统一下载以上几个驱动(地址:https://github.com/Sesshoumaru/attachments/tree/master/Selenium%20WebDriver)。下载解压后，将所在的目录添加系统的环境变量中。当然你也可以将下载下来的驱动放到python安装目录的lib目录中，因为它本身已经存在于环境变量（我就是这么干的）。

浅谈python爬虫使用Selenium模拟浏览器行为

使用python代码模拟浏览器行为

要使用selenium先需要定义一个具体browser对象，这里就定义的时候就看你电脑安装的具体浏览器和安装的哪个浏览器的驱动。这里以火狐浏览器为例：

from selenium import webdriver
browser = webdriver.Firefox()

再模拟打开贴吧首页：

browser.get(https://tieba.baidu.com/index.html)

再模拟滚动条滚动到底部

for i in range(1, 5):
 browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
 time.sleep(1)

最后再使用BeautifulSoup，解析图片标签：

html = BeautifulSoup(browser.page_source, "lxml")
imgs = html.select("#new_list li img")

几个注意点

必须安装浏览器和浏览器驱动，并且浏览器和浏览器驱动要配到

即如果使用谷歌浏览器模拟网页行为，则需要下载谷歌浏览器驱动；
如果使用火狐浏览器模拟网页行为，则需要下载火狐浏览器驱动

浏览器驱动所在的目录要在环境变量中，或者定义浏览器browser的时候指定驱动的路径

selenium更多用法

查找元素

from selenium import webdriver

browser = webdriver.Firefox()
browser.get("https://tieba.baidu.com/index.html")

new_list = browser.find_element_by_id('new_list')
user_name = browser.find_element_by_name ('user_name')
active = browser.find_element_by_class_name ('active')
p = browser.find_element_by_tag_name ('p')

# find_element_by_name 通过name查找单个元素
# find_element_by_xpath 通过xpath查找单个元素
# find_element_by_link_text 通过链接查找单个元素
# find_element_by_partial_link_text 通过部分链接查找单个元素
# find_element_by_tag_name 通过标签名称查找单个元素
# find_element_by_class_name 通过类名查找单个元素
# find_element_by_css_selector 通过css选择武器查找单个元素
# find_elements_by_name 通过name查找多个元素
# find_elements_by_xpath 通过xpath查找多个元素
# find_elements_by_link_text 通过链接查找多个元素
# find_elements_by_partial_link_text 通过部分链接查找多个元素
# find_elements_by_tag_name 通过标签名称查找多个元素
# find_elements_by_class_name 通过类名查找多个元素
# find_elements_by_css_selector 通过css选择武器查找多个元素

获取元素信息

btn_more = browser.find_element_by_id('btn_more')
print(btn_more.get_attribute('class')) # 获取属性
print(btn_more.get_attribute('href')) # 获取属性
print(btn_more.text) # 获取文本值

元素交互操作

btn_more = browser.find_element_by_id('btn_more')
btn_more.click() # 模拟点击,可以模拟点击加载更多

input_search = browser.find_element(By.ID,'q')
input_search.clear() # 清空输入

执行JavaScript

# 执行JavaScript脚本
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

浅谈python爬虫使用Selenium模拟浏览器行为

- Author -

十月狐狸

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python线程锁(thread)学习示例

Dec 04 Python

python求众数问题实例

Sep 26 Python

在Linux命令行终端中使用python的简单方法(推荐)

Jan 23 Python

django用户注册、登录、注销和用户扩展的示例

Mar 19 Python

Python视频爬虫实现下载头条视频功能示例

May 07 Python

Python wxpython模块响应鼠标拖动事件操作示例

Aug 23 Python

解决pycharm运行程序出现卡住scanning files to index索引的问题

Jun 27 Python

python3调用windows dos命令的例子

Aug 14 Python

如何使用python实现模拟鼠标点击

Jan 06 Python

基于pytorch的lstm参数使用详解

Jan 14 Python

python使用ctypes调用扩展模块的实例方法

Jan 28 Python

Django如何使用redis作为缓存

May 21 Python

python kmeans聚类简单介绍和实现代码

Feb 23 #Python

python MysqlDb模块安装及其使用详解

Feb 23 #Python

Python实现k-means算法

Feb 23 #Python

python语言中with as的用法使用详解

Feb 23 #Python

python实现定时自动备份文件到其他主机的实例代码

Feb 23 #Python

Python机器学习算法之k均值聚类（k-means）

Feb 23 #Python

python3调用R的示例代码

Feb 23 #Python

You might like

一个简单的PHP入门源程序

2006/10/09 PHP

编写漂亮的代码 - 将后台程序与前端程序分开

2008/04/23 PHP

php session处理的定制

2009/03/16 PHP

php正则替换处理HTML页面的方法

2015/06/17 PHP

php商品对比功能代码分享

2015/09/24 PHP

Zend Framework入门教程之Zend_Mail用法示例

2016/12/08 PHP

nodejs win7下安装方法

2012/05/24 NodeJs

IE中document.createElement的iframe无法设置属性name的解决方法

2015/09/14 Javascript

使用javaScript动态加载Js文件和Css文件

2015/10/24 Javascript

基于jQuery实现二级下拉菜单效果

2016/02/01 Javascript

js仿百度登录页实现拖动窗口效果

2016/03/11 Javascript

JS简单获取客户端IP地址的方法【调用搜狐接口】

2016/09/05 Javascript

jquery 抽奖小程序实现代码

2016/10/12 Javascript

bootstrap多层模态框滚动条消失的问题

2017/07/21 Javascript

React Native时间转换格式工具类分享

2017/10/24 Javascript

微信小程序使用progress组件实现显示进度功能【附源码下载】

2017/12/12 Javascript

微信小程序定义和调用全局变量globalData的实现

2019/11/01 Javascript

[01:08:43]DOTA2-DPC中国联赛定级赛 Phoenix vs DLG BO3第一场 1月9日

2021/03/11 DOTA

Python中应该使用%还是format来格式化字符串

2018/09/25 Python

Python动态导入模块和反射机制详解

2020/02/18 Python

Python3通过chmod修改目录或文件权限的方法示例

2020/06/08 Python

详解Python+Selenium+ChromeDriver的配置和问题解决

2021/01/19 Python

CSS3 3D立方体效果示例－transform也不过如此

2016/12/05 HTML / CSS

CSS3实现图片抽屉式效果的示例代码

2019/11/06 HTML / CSS

类成员函数的重载、覆盖和隐藏区别

2016/01/27 面试题

实现向右循环移位

2014/07/31 面试题

应届专科生个人的自我评价

2014/01/05 职场文书

元旦红领巾广播稿

2014/02/19 职场文书

机修工工作职责

2014/02/21 职场文书

《奇妙的国际互联网》教学反思

2014/02/25 职场文书

保护动物倡议书

2014/04/15 职场文书

乡镇安全生产目标责任书

2014/07/23 职场文书

代领学位证书毕业证书委托书

2014/09/30 职场文书

2015元旦文艺汇演主持稿（开场白+结束语）

2014/12/14 职场文书

家装业务员岗位职责

2015/04/03 职场文书

学校工会工作总结2015

2015/05/19 职场文书