Python爬虫实现selenium处理iframe作用域问题


Posted in Python onJanuary 27, 2021

项目场景:

在使用selenium模块进行数据爬取时,通常会遇到爬取iframe中的内容。会因为定位的作用域问题爬取不到数据。

问题描述:

我们以菜鸟教程的运行实例为案例。
按照正常的定位

Python爬虫实现selenium处理iframe作用域问题

会以文本块生成xpath为/html/body/text()。这样的话根据xpath进行如下代码编写。

#!/user/bin/
# -*- coding:UTF-8 -*-
# Author:Master

from selenium import webdriver
import time

driver = webdriver.Chrome(executable_path="./chromedriver")
driver.get('https://www.runoob.com/try/runcode.php?filename=HelloWorld&type=python3')
time.sleep(2)
text = driver.find_element_by_xpath('/html/body').text
print(text)
time.sleep(5)
driver.quit()

执行结果:

Python爬虫实现selenium处理iframe作用域问题

很明显这并不是想要的结果。

原因分析:

当我们打开抓包工具定位到Hello, World!文本的时候会发现,该文本是在一个iframe中。这样的话我们xpath所定位到的内容则是大的html中的路径。我们需要的内容则是在iframe中的小的html中。

解决方案:

通过分析发现,想要解决问题的实质就是改变作用域。通过switch_to.frame(‘id')方法来改变作用域就可以了。

重新编写代码:

#!/user/bin/
# -*- coding:UTF-8 -*-
# Author:Master

from selenium import webdriver
import time

driver = webdriver.Chrome(executable_path="./chromedriver")
driver.get('https://www.runoob.com/try/runcode.php?filename=HelloWorld&type=python3')
time.sleep(2)
driver.switch_to.frame('iframeResult')
text = driver.find_element_by_xpath('/html/body').text
print(text)
time.sleep(5)
driver.quit()

查看运行结果:

Python爬虫实现selenium处理iframe作用域问题

到此这篇关于Python爬虫实现selenium处理iframe作用域问题的文章就介绍到这了,更多相关selenium iframe作用域内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python创建xml文件示例
Mar 22 Python
Scrapy爬虫实例讲解_校花网
Oct 23 Python
Python实现将一个正整数分解质因数的方法分析
Dec 14 Python
解决已经安装requests,却依然提示No module named requests问题
May 18 Python
django-crontab实现服务端的定时任务的示例代码
Feb 17 Python
深入理解Tensorflow中的masking和padding
Feb 24 Python
使用python批量转换文件编码为UTF-8的实现
Apr 03 Python
520使用Python实现“我爱你”表白
May 20 Python
Python实现敏感词过滤的4种方法
Sep 12 Python
python Tornado框架的使用示例
Oct 19 Python
详解如何修改jupyter notebook的默认目录和默认浏览器
Jan 24 Python
浏览器常用基本操作之python3+selenium4自动化测试(基础篇3)
May 21 Python
python利用appium实现手机APP自动化的示例
Jan 26 #Python
python 基于opencv去除图片阴影
Jan 26 #Python
python中用ggplot绘制画图实例讲解
Jan 26 #Python
python中altair可视化库实例用法
Jan 26 #Python
用Python制作音乐海报
Jan 26 #Python
python中pyqtgraph知识点总结
Jan 26 #Python
Appium+Python实现简单的自动化登录测试的实现
Jan 26 #Python
You might like
PHP的FTP学习(三)
2006/10/09 PHP
fleaphp rolesNameField bug解决方法
2011/04/23 PHP
WebQQ最新登陆协议的用法
2014/12/22 PHP
php截取html字符串及自动补全html标签的方法
2015/01/15 PHP
Centos6.5和Centos7 php环境搭建方法
2016/05/27 PHP
php基于 swoole 实现的异步处理任务功能示例
2019/08/13 PHP
用Javascript做flash做的事..才完成的一个类.Auntion Action var 0.1
2007/02/23 Javascript
jquery怎样实现ajax联动框(二)
2013/03/08 Javascript
绑定回车enter事件代码
2014/05/18 Javascript
smartcrop.js智能图片裁剪库
2015/10/14 Javascript
详解JavaScript基于面向对象之继承实例
2015/12/16 Javascript
Jquery uploadify上传插件使用详解
2016/01/13 Javascript
深入理解bootstrap框架之入门准备
2016/10/09 Javascript
three.js实现3D视野缩放效果
2017/11/16 Javascript
详解VUE2.X过滤器的使用方法
2018/01/11 Javascript
详解vue静态资源打包中的坑与解决方案
2018/02/05 Javascript
vue做移动端适配最佳解决方案(亲测有效)
2018/09/04 Javascript
vue单页缓存存在的问题及解决方案(小结)
2018/09/25 Javascript
详解angular2.x创建项目入门指令
2018/10/11 Javascript
Node.js assert断言原理与用法分析
2019/01/04 Javascript
js实现无缝轮播图插件封装
2020/07/31 Javascript
bootstrap实现tab选项卡切换
2020/08/09 Javascript
python实现ftp客户端示例分享
2014/02/17 Python
Python之时间和日期使用小结
2019/02/14 Python
Python企业编码生成系统之系统主要函数设计详解
2019/07/26 Python
Pytorch 之修改Tensor部分值方式
2019/12/27 Python
Python下利用BeautifulSoup解析HTML的实现
2020/01/17 Python
在Pytorch中使用Mask R-CNN进行实例分割操作
2020/06/24 Python
介绍一下HTTP、HTTPS和SSL
2012/12/16 面试题
平面设计师工作职责范文
2013/12/03 职场文书
采购主管工作职责
2013/12/12 职场文书
图书馆义工感想
2015/08/07 职场文书
离婚协议书范本(2016最新版)
2016/03/18 职场文书
2019广播稿怎么写
2019/04/17 职场文书
MySQL 那些常见的错误设计规范,你都知道吗
2021/07/16 MySQL
Python按顺序遍历并读取文件夹中文件
2022/04/29 Python