Python Selenium 设置元素等待的三种方式


Posted in Python onMarch 18, 2020

Selenium 设置元素等待的三种方式

    1. sleep 强制等待
    2. implicitly_wait() 隐性等待
    3. WebDriverWait()显示等待

三种方式的优缺点

1. sleep 强制等待

from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
sleep(2)    #设置等待2秒钟
driver.get('http://www.baidu.com')

优点: 
           代码简介,简单明了

缺点: 
           如果设置sleep等待时间过短,元素还没加载出来,程序报错,sleep设置等待时间过长,元素早就加载出来了,程序还在等待,浪费是时间,影响代码整体的运行效率

个人看法: 
           简单粗暴,根据网站的响应速度和自己的网速来设置合理的休眠时间

2. implicitly_wait() 隐性等待

from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
driver.implicitly_wait(20) #设置等待20秒钟
driver.get('http://www.baidu.com')

优点: 
          1.代码简介
          2.在代码前部分加implicitly_wait(10) ,整个的程序运行过程中都会有效(作用于全局,直接在初始化driver的后面加,后面的代码都会受影响),都会等待元素加载完成
          3.在设置的时间内没有加载到整个页面,则会报NosuchElementError。如果元素在第10s被加载出来,自动执行下面的脚本,不会一直等待10s

缺点:
          1. 非要加载到整个页面才执行代码,这样影响代码的执行效率,一般情况下,我们想要的结果是只需加载到了我要定位的元素就执行代码,不需要等待整个页面的完全加载出来再执行代码。

个人看法: 
          1.不适合用在数据在ajax的网站中,比如翻页什么的,某个元素一直存在,但是数据一直在变,这样的话只要加载出来第一页,后面翻页的数据全部会和第一页的数据相同,因为代码判断了这个元素已经被加载出来了,不会等ajax去加载

3. WebDriverWait()显示等待

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait    #WebDriverWait注意大小写
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get('http://www.baidu.com')
try:
  element = 
  WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,'kw')))
  element.send_keys('123')
  driver.find_element_by_id('su').click()
except Exception as message:
  print('元素定位报错%s'%message)
finally:
  pass

优点:
           代码执行效率快。无需等待整个页面加载完成,只需加载到你要定位的元素就可以执行代码。是最智能的设置元素等待的方式。

缺点:
           1.要导入from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.ui import WebDriverWait
 from selenium.webdriver.common.by import By

            必须要导入以上3个包,导包路径相当的复杂,??露?衣榉?br />            2.写等待时间的代码也是复杂。步骤稍微有点多。

element=WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,‘kw')))
element.send_keys(‘123')

个人看法: 相比于两种,这种方式可以算的上好的了,但是就是麻烦,写的代码太多,使用的话可以和第一种方式sleep混合使用,不过我还是喜欢用sleep,本身使用selenium就是没办法破开网站,或者使用selenium比直接破解的方式更好才使用这种,我个人是能不用就不用,抓取速度太慢了。

附上我抓取一个网站的代码,这网站作者的成果抓不到,只好用这种方式来抓了:

from selenium import webdriver
import time
from lxml.html import etree
import copy
import json
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
 
def getAuthors():
  j1 = set()
  f = open('Author.json', 'r', encoding='utf-8')
  data = f.read()
  data_list = data.split('\n')
  for dt in data_list:
    j1.add(dt)
  f.close()
  print('j1= ', len(j1))
  j2 = set()
  f1 = open('yzq.json', 'r', encoding='utf-8')
  data1 = f1.read()
  data_list1 = data1.split('\n')
  for dt in data_list1:
    j2.add(dt)
  print('j2= ', len(j2))
  countSet = j1 - j2
  print('countset= ', len(countSet))
  AuthorsData = []
  for dt in countSet:
    dt_json = json.loads(dt)
    if int(dt_json["成果"]) > 0:
      AuthorsData.append(dt_json)
  # dt = {'img': 'https://www.scholarmate.com/avatars/99/92/62/37572.jpg', 'name': '吴伟',
  #    'url': 'https://www.scholarmate.com/P/aeiUZr', 'org': '复旦大学, 教授', '项目': 20, '成果': 234, 'H指数': '24'}
  print('AuthorData= ', len(AuthorsData))
  return AuthorsData
 
def parseHtml(html, i):
  temp_list = []
  html_data = etree.HTML(html)
  project_html = html_data.xpath('//div[@class="pub-idx__main"]')
  for p in project_html:
    # pro_name = p.xpath('./div[@class="pub-idx__main_title"]/a/@title')[0]
    pro_name = p.xpath('.//a/@title')[0].strip().replace(r'\xa0', '')
    # pro_url = p.xpath('./div[@class="pub-idx__main_title"]/a/@href')[0]
    pro_url = p.xpath('.//a/@href')[0]
    pro_author = p.xpath('./div[2]/@title')[0].strip().replace('\xa0', '')
    # pro_author = p.xpath('.//div[@class="pub-idx__main_author"]/@title')
    pro_inst = p.xpath('./div[3]/@title')[0]
    temp_dict = {
      'num': i,
      'pro_name': pro_name,
      'pro_url': pro_url,
      'pro_author': pro_author,
      'pro_inst': pro_inst
    }
    temp_list.append(copy.deepcopy(temp_dict))
  return temp_list 
 
def parseData(author_data):
  try:
    url = author_data['url']
    ach_num = int(author_data['成果'])
    pages = ach_num // 10
    pages_ys = ach_num % 10
    if pages_ys > 0:
      pages += 1
    driver = webdriver.Chrome()
    # driver.implicitly_wait(10)
    driver.get(url)
    psn_data = []
    for i in range(1, pages+1):
      if i == 1:
        # 防止抓取到半路的时候页面没有响应,这部分数据就直接扔掉
        try:
          # time.sleep(2)
          driver.find_element_by_xpath('//*[@id="pubTab"]').click()
          # time.sleep(3)
          # 有以下这些选择
          # WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.ID, 'pub-idx__main')))
          # WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CLASS_NAME, 'pub-idx__main')))
          # WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, './/pub-idx__main')))
          # 这个也不适合这个网站,还是会抓到重复的
          WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.XPATH, '//div[@class="pub-idx__main"]')))
          html = driver.page_source
          temp_dict = parseHtml(html, i)
          psn_data.append(copy.deepcopy(temp_dict))
        except:
          import traceback
          print(traceback.print_exc())
          pass
      else:
        # driver.find_element_by_xpath('//*[@id="pubTab"]').click()
        # 将页面拉到底部
        try:
          js = "var q=document.documentElement.scrollTop=100000"
          driver.execute_script(js)
          # time.sleep(1)
          driver.find_element_by_xpath('//div[@class="pagination__pages_next"]').click()
          # time.sleep(2)
          WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.XPATH, '//div[@class="pub-idx__main"]')))
          html = driver.page_source
          temp_dict = parseHtml(html, i)
          psn_data.append(copy.deepcopy(temp_dict))
        except:
          pass
    driver.close()
    psn_data = {
      'init_data': author_data,
      'psn_data': psn_data
    }
    print(psn_data)
    psn_data_string = json.dumps(psn_data, ensure_ascii=False)
    with open('data.json', 'a+', encoding='utf-8') as f:
      f.write('{}\n'.format(psn_data_string))
 
    author_data_string = json.dumps(author_data, ensure_ascii=False)
    with open('yzq.json', 'a+', encoding='utf-8') as f:
      f.write('{}\n'.format(author_data_string))
 
  except:
    pass
    # import traceback
    # print(traceback.print_exc())
    # au_strign = json.dumps(author_data, ensure_ascii=False)
    # author_data_string = json.dumps(au_strign, ensure_ascii=False)
    # with open('error.json', 'a+', encoding='utf-8') as f:
    #   f.write('{}\n'.format(author_data_string))
 
def main():
  # authors的值:给出三条
  # {"img": "https://www.scholarmate.com/avatars/e4/fe/1e/1000002077830.png?A=DMkT", "name": "胡婷",
  # "url": "https://www.scholarmate.com/P/QFFbae", "org": "四川大学, 主治医师", "项目": "0", "成果": "11", "H指数": "0"}
  # {"img": "https://www.scholarmate.com/avatars/01/ea/59/1000002180047.png?A=DVUy", "name": "白晓涓",
  # "url": "https://www.scholarmate.com/P/73me22", "org": "", "项目": "6", "成果": "8", "H指数": "0"}
  # {"img": "https://www.scholarmate.com/avatars/fe/0d/89/1000000732306.png?A=D65r", "name": "原鹏飞",
  # "url": "https://www.scholarmate.com/P/77nIFr", "org": "国家统计局统计科学研究所, 副研究员", "项目": "0", "成果": "90", "H指数": "0"}
 
  AuthorsData = getAuthors()
  for authors in AuthorsData:
    print('author= ', authors)
    parseData(authors)
 
if __name__ == '__main__':
  main()

友情链接:

https://www.cnblogs.com/zhaof/p/6953241.html

https://blog.csdn.net/xiezhiming1234/article/details/83865314

https://www.cnblogs.com/April-Chou-HelloWorld/p/8855760.html

到此这篇关于Python Selenium 设置元素等待的三种方式的文章就介绍到这了,更多相关Selenium 元素等待内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python 文件读写操作实例详解
Mar 12 Python
Python实现冒泡,插入,选择排序简单实例
Aug 18 Python
python任务调度实例分析
May 19 Python
Python实现查找匹配项作处理后再替换回去的方法
Jun 10 Python
python机器学习库常用汇总
Nov 15 Python
Linux-ubuntu16.04 Python3.5配置OpenCV3.2的方法
Apr 02 Python
Python爬虫框架scrapy实现的文件下载功能示例
Aug 04 Python
python 函数中的参数类型
Feb 11 Python
使用Python-OpenCV消除图像中孤立的小区域操作
Jul 05 Python
python解压zip包中文乱码解决方法
Nov 27 Python
python中yield的用法详解
Jan 13 Python
python之openpyxl模块的安装和基本用法(excel管理)
Feb 03 Python
Python多线程threading join和守护线程setDeamon原理详解
Mar 18 #Python
Python semaphore evevt生产者消费者模型原理解析
Mar 18 #Python
Python中remove漏删和索引越界问题的解决
Mar 18 #Python
Python集成开发工具Pycharm的安装和使用详解
Mar 18 #Python
Python3监控windows,linux系统的CPU、硬盘、内存使用率和各个端口的开启情况详细代码实例
Mar 18 #Python
PyTorch加载自己的数据集实例详解
Mar 18 #Python
Python进程间通信multiprocess代码实例
Mar 18 #Python
You might like
国内php原创论坛
2006/10/09 PHP
php学习笔记 php中面向对象三大特性之一[封装性]的应用
2011/06/13 PHP
php结合js实现点击超链接执行删除确认操作
2014/10/31 PHP
PHP解密Unicode及Escape加密字符串
2015/05/17 PHP
php中strtotime函数性能分析
2016/11/20 PHP
javascript 常用方法总结
2009/06/03 Javascript
jQuery下扩展插件和拓展函数的写法(匿名函数使用的典型例子)
2010/10/20 Javascript
利用js 进行输入框自动匹配字符的小例子
2013/06/29 Javascript
javascript中拼接HTML字符串的最快、最好的方法
2014/06/07 Javascript
jQuery简易图片放大特效示例代码
2014/06/09 Javascript
非jQuery实现照片散落桌子上,单击放大的LightBox效果
2014/11/28 Javascript
后台获取ZTREE选中节点的方法
2015/02/12 Javascript
jquery实现带缩略图的全屏图片画廊效果实例
2015/06/25 Javascript
jquery实现邮箱自动填充提示功能
2015/11/17 Javascript
分享网页检测摇一摇实例代码
2016/01/14 Javascript
JS遍历页面所有对象属性及实现方法
2016/08/01 Javascript
AngularJS基础 ng-switch 指令简单示例
2016/08/03 Javascript
JS简单实现移动端日历功能示例
2016/12/28 Javascript
vue-resourc发起异步请求的方法
2020/02/11 Javascript
[01:06]DOTA2小知识课堂 Ep.01 TP出门不要忘记帮队友灌瓶哦
2019/12/05 DOTA
[07:01]DOTA2-DPC中国联赛正赛 Aster vs Magma 3月5日 赛后选手采访
2021/03/11 DOTA
python之yield表达式学习
2014/09/02 Python
python2.7 mayavi 安装图文教程(推荐)
2017/06/22 Python
Python3处理HTTP请求的实例
2018/05/10 Python
python矩阵转换为一维数组的实例
2018/06/05 Python
Python爬虫实战之12306抢票开源
2019/01/24 Python
python 中的列表生成式、生成器表达式、模块导入
2019/06/19 Python
PyQt5的安装配置过程,将ui文件转为py文件后显示窗口的实例
2019/06/19 Python
Python变量访问权限控制详解
2019/06/29 Python
Python使用Opencv实现图像特征检测与匹配的方法
2019/10/30 Python
TensorFlow tf.nn.conv2d实现卷积的方式
2020/01/03 Python
canvas如何实现多张图片编辑的图片编辑器
2020/03/10 HTML / CSS
学校领导班子群众路线整改措施
2014/09/16 职场文书
群众路线教育实践活动总结
2014/10/30 职场文书
党支部创先争优公开承诺书
2015/04/30 职场文书
python ConfigParser库的使用及遇到的坑
2022/02/12 Python