用python-webdriver实现自动填表的示例代码


Posted in Python onJanuary 13, 2021

 在日常工作中常常需要重复填写某些表单,如果人工完成,费时费力,而且网络延迟令人十分崩溃。如果能够用程序实现自动填表,效率可以提高一倍以上,并且能够移植到多台计算机,进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具,它能完全模拟浏览器的操作,无需处理复杂的request、post,对爬虫初学者十分友好。

一、环境配置

python3.6+selenium库+xlrd库+xlwt库

其中xlrd和xlwt库用于读写excel表中的数据。

还要下载一个浏览器的driver文件用于打开浏览器,注意要选择与计算机系统相符合的版本(max/windows64位/windows32位)

ChromeDriver:http://npm.taobao.org/mirrors/chromedriver/

     IEDriver:http://selenium-release.storage.googleapis.com/index.html

将下载下来的driver.exe放到浏览器根目录和python的根目录

二、打开网页

以IE浏览器为例,以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站

driver= webdriver.Ie()
driver.get('http://xxxx.com/')

如果网站需要登陆(需要填表的一般是公司内部网站),再写一个login函数,将driver作为参数调用

driver = login(driver)

     注意一定要将driver传回,这样driver才能继续接受程序的指令

三、元素定位

webdriver的工作原理是找到网页中某一个元素,可以对其进行填入数据或点击等操作。

关于元素定位可以参考这篇博客

我主要用到的元素定位方式有

driver.find_element_by_id('someid')#通过元素的id定位
driver.find_element_by_css_selector("input[value='确定'")#查找一个input元素,它的value属性值为'确定'
driver.find_element_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#查找一个style属性值为'COLOR:red'的span元素的第一个span子元素

 (1)通过id定位

如果我们想在网页表单的某一个位置填某项值或者点击某个按钮,我们首先要用开发者工具查看这个元素的源代码,然后首先观察它有没有id,如果有id,直接用id定位该元素。然后,用

driver.find_element_by_id('someid').click()#点击元素
driver.find_element_by_id('someid').send_keys('somekeys')#填入'somekeys'
driver.find_element_by_id('someid').clear()#清空输入框中已有的值

实现我们想要做的操作。

 (2)通过ccs selector定位

如果我们想要操作的元素没有ID,那么我们就要找到它跟网页其他元素不同的特征,ccs selector是一种十分灵活的定位方式,其中用value定位是一个不错的选择。以

driver.find_element_by_css_selector("input[value='确定'")

为例,双引号中的input可以换成任何网页元素(div、span、input、a等),中括号中是该元素的某一个属性(style、id、value、class等),等号后面是该属性的值。

注意,如果网页中有多个元素同时满足ccs selector的条件,如有多个value=“确定” 的input,那么find_element_by_css_selector只会定位到在html源代码中最靠前的一个,而find_elements_by_css_selector会找到源代码中所有满足条件的元素,并以列表的形式返回这些找到的元素。例如,网页中弹出很多个提示框,我们要一一去点确定,可以这样操作

list=driver.find_elements_by_css_selector("input[value=' 确定 ']")
for l in list:
l.click()

但是,如果这些提示框是重叠出现的,而最上层的提示框实际上在源码中更靠后的位置,那么列表中第一个“确定”元素就会被叠在上面的提示框遮挡,无法点击,这个时候倒序一下数组就可以了,从最后一个“确定”元素开始点击

query=driver.find_elements_by_css_selector("input[value=' 确定 ']")
for q in query[::-1]:
q.click()

(3)通过xpath定位

xpath定位比较复杂但是非常全面,当这个元素的class、style属性和其他元素一样,实在没什么特点可以一步定位的时候,我们就可以用xpath,先找到我们想要的元素的父子兄弟元素,再定位到我们想要的元素。例如

driver.find_element_by_xpath('//*[@class="submit clear"]/input[1]').click()
text =driver.find_element_by_xpath("//input[@value=' 确定 ']/../preceding-sibling::div[1]").text
driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")

引号中的//表示相对定位,表示从源代码中任何地方开始寻找。

//后可以跟任何元素,*代表任意元素,即定位符合属性筛选任何元素。

中括号内是属性的筛选条件,@后可以加任意属性。contains(@style,'COLOR: red')表示的筛选条件是:style属性中包含”COLOR:red“。这里为什么不直接用@style='COLOR: red'

的原因是,可能在我们审查源代码的时候这个元素的style属性只有'COLOR: red'这一条,但是动态界面的style属性经常变化,程序运行时直接用等于是定位不到这个元素的。

我们通常需要靠先找到某个有id的元素,再通过层级关系定位到我们真正想要定位的元素,关于兄弟父子元素定位请参考https://3water.com/article/92673.htm

/..  可以定位这个元素的父亲元素

/  可以定位这个元素的子元素

/preceding-sibling::  可以定位这个元素的哥哥元素

/following-sibling::  可以定位这个元素的弟弟元素

如/input[1]表示子元素中第一个input、/../preceding-sibling::div[1]表示父元素的哥哥元素中的第一个div

 (4)通过当前节点定位

有时候我们会遇到需要判断一下元素当前的状态(是否被选择)再决定接下来的操作的情况,这时就需要用一个变量来保存当前节点  

LTE=driver.find_element_by_xpath("//input[@id='LTE']/../span[1]"

然后再用get_attribute获得当前节点元素的属性,在这个例子里,如果元素为蓝色,就不需要点击。代码实现为:

if LTE.get_attribute("style")=="COLOR: blue":
 pass
 else:
 LET.click()

需要筛选出特定文本的情况:

red=driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#找出所有红色的文本
 for r in red:
 if '低消' in r.text:#如果文本信息中包含‘低消'
  r.find_element_by_xpath("./../preceding-sibling::input[1]").click()#注意从当前节点定位的时候要以‘./'开头
  break

如果寻找的元素需要滚动界面才能看到,这个时候可以用js聚焦此元素,页面便会滚动到该元素的位置

target=driver.find_element_by_css_selector("input[value=' 确定 ']")
 driver.execute_script("arguments[0].scrollIntoView();", target)
 target.click()

四、不确定情况处理

 (1)有可能出现的弹窗

在填表过程中,有些地方有可能出现一个弹框也有可能不出现,这个时候,无论这个弹窗是什么,用try..except语句处理就可以解决

js触发的弹窗:

try:
 driver.find_element_by_css_selector("input[value=' 确定 ']").click()
 except Exception as e:
 pass

网页alert弹窗:

try:
 driver.switch_to.alert.dismiss()
 except Exception:
 pass

dismiss()对应的是alert弹窗的”取消“项,accept()对应的是”确定“项,driver.switch_to.alert.text 可以获得弹窗的文本内容。

 (2)数量不定的弹窗

对上文提到的多个提示框情况,除了用 query=driver.find_elements_by_css_selector("input[value=' 确定 ']") 一次性找到所有元素再顺序或倒序点击之外,还可以用一个while循环解决

while(1):
 try:
  driver.find_element_by_css_selector("input[value=' 确定 ']").click()
 except Exception as e:
  break

 (3)网络延迟

有些网页在点击查询信息之后需要加载一段时间,加载中的页面是找不到我们接下来想找的元素的,因此程序就会报错,此时有两种解决方法。

一种是固定等待一段时间,等待网页加载完毕,这种方法的缺点是很难找到等待的最佳时间,太短的话页面还没加载完,太长就影响效率

time.sleep(2)

另一种是用一个while循环一直寻找下一个我们要找的元素

while(1):
 try:
  driver.find_element_by_id('continueTrade').click()
  break
 except Exception:
  pass

这种方法的前提是下一个要找的元素必定会出现 

五、frame处理

关于frame处理这篇博客写得非常好https://3water.com/article/203425.htm

总结起来就是:frameset不用切,frame层层切。最好一系列填表操作完后都用 driver.switch_to.default_content() 回到原文档,这样不容易混乱

这里再补充一点frame没有id时的切入方法

frame= self.driver.find_element_by_xpath("/html/body/div[12]/iframe")#先定位frame位置,用一个变量储存这个节点
 self.driver.switch_to_frame(frame)#再切入这个节点

六、excel数据读写

excel数据读写十分简单,看代码就好了:

def read(file):
 data = xlrd.open_workbook(file)#打开excel文件
 table = data.sheets()[0]#读取第一个sheet的数据
 phones = table.col_values(0)#以列表形式存储第一列数据
 peoples = table.col_values(1)#以列表形式存储第二列数据

 return phones,peoples

def write(result):
 file=xlwt.Workbook()#创建一个excel文件
 table = file.add_sheet('sheet1')#添加一个sheet
 for i in range(len(result)):#写入数据
 table.write(i,0,result[i][0])
 table.write(i,1,result[i][1])
 table.write(i,2,result[i][2])
 file.save('result.xls')

到此这篇关于用python-webdriver实现自动填表的示例代码的文章就介绍到这了,更多相关python webdriver 自动填表内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现类继承实例
Jul 04 Python
简单介绍Python中的JSON使用
Apr 28 Python
深入理解Python中装饰器的用法
Jun 28 Python
Python 如何访问外围作用域中的变量
Sep 11 Python
Python多层装饰器用法实例分析
Feb 09 Python
对Python闭包与延迟绑定的方法详解
Jan 07 Python
Python面向对象之继承和多态用法分析
Jun 08 Python
python爬虫模拟浏览器访问-User-Agent过程解析
Dec 28 Python
Python3实现监控新型冠状病毒肺炎疫情的示例代码
Feb 13 Python
python 画图 图例自由定义方式
Apr 17 Python
Django ModelForm组件原理及用法详解
Oct 12 Python
Python列表的索引与切片
Apr 07 Python
python 装饰器的基本使用
Jan 13 #Python
python日志通过不同的等级打印不同的颜色(示例代码)
Jan 13 #Python
浅谈Selenium+Webdriver 常用的元素定位方式
Jan 13 #Python
Selenium Webdriver元素定位的八种常用方式(小结)
Jan 13 #Python
基于python+selenium自动健康打卡的实现代码
Jan 13 #Python
Python爬虫scrapy框架Cookie池(微博Cookie池)的使用
Jan 13 #Python
matplotlib交互式数据光标实现(mplcursors)
Jan 13 #Python
You might like
[原创]PHP中通过ADODB库实现调用Access数据库之修正版本
2006/12/31 PHP
php简单封装了一些常用JS操作
2007/02/25 PHP
PHP GD 图像处理组件的常用函数总结
2010/04/28 PHP
PHP访问Google Search API的方法
2015/03/05 PHP
WordPress过滤垃圾评论的几种主要方法小结
2016/07/11 PHP
PHP使用ActiveMQ实现消息队列的方法详解
2019/05/31 PHP
用js实现的一个Flash滚动轮换显示图片代码生成器
2007/03/14 Javascript
关于跨站脚本攻击问题
2011/12/22 Javascript
JS+CSS制作DIV层可(最小化/拖拽/排序)功能实现代码
2013/02/25 Javascript
jquery实现智能感知连接外网搜索
2013/05/21 Javascript
js获取url中的参数且参数为中文时通过js解码
2014/03/19 Javascript
Flash图片上传组件 swfupload使用指南
2015/03/14 Javascript
浏览器中url存储的JavaScript实现
2015/07/07 Javascript
jQuery实现页面点击后退弹出提示框的方法
2016/08/24 Javascript
关于两个jQuery(js)特效冲突的bug的解决办法
2016/09/04 Javascript
JavaScript计时器用法分析【setTimeout和clearTimeout】
2017/01/18 Javascript
js实现九宫格的随机颜色跳转
2017/02/19 Javascript
深入理解Node中的buffer模块
2017/06/03 Javascript
Bootbox将后台JSON数据填充Form表单的实例代码
2018/09/10 Javascript
微信小程序实现蒙版弹出窗功能
2019/09/17 Javascript
ES6中Set和Map用法实例详解
2020/03/02 Javascript
基于脚手架创建Vue项目实现步骤详解
2020/08/03 Javascript
vue-router重写push方法,解决相同路径跳转报错问题
2020/08/07 Javascript
[36:33]Ti4 循环赛第四日 附加赛NEWBEE vs Mouz
2014/07/13 DOTA
[03:11]不朽宝藏三外观展示
2020/09/18 DOTA
在Python中定义和使用抽象类的方法
2016/06/30 Python
python的pandas工具包,保存.csv文件时不要表头的实例
2018/06/14 Python
Python字符串通过'+'和join函数拼接新字符串的性能测试比较
2019/03/05 Python
Python应用领域和就业形势分析总结
2019/05/14 Python
详解CSS3中@media的实际使用
2015/08/04 HTML / CSS
巴西在线鞋店:Shoestock
2017/10/28 全球购物
Harrods英国:世界领先的奢侈品百货商店
2020/09/23 全球购物
服装厂厂长职责
2013/12/16 职场文书
住宅使用说明书
2014/05/09 职场文书
党员个人对照检查材料
2014/10/01 职场文书
SpringCloud Function SpEL注入漏洞分析及环境搭建
2022/04/08 Java/Android