python爬虫selenium模块详解


Posted in Python onMarch 30, 2021

selenium模块

selenium基本概念

selenium优势

  • 便捷的获取网站中动态加载的数据
  • 便捷实现模拟登陆

selenium使用流程:

1.环境安装:pip install selenium

2.下载一个浏览器的驱动程序(谷歌浏览器)

3.实例化一个浏览器对象

基本使用

代码

from selenium import webdriver
from lxml import etree
from time import sleep

if __name__ == '__main__':

 bro = webdriver.Chrome(r"E:\google\Chrome\Application\chromedriver.exe")
 bro.get(url='http://scxk.nmpa.gov.cn:81/xk/')

 page_text = bro.page_source
 tree = etree.HTML(page_text)
 li_list = tree.xpath('//*[@id="gzlist"]/li')
 for li in li_list:
  name = li.xpath('./dl/@title')[0]
  print(name)
 sleep(5)
 bro.quit()

基于浏览器自动化的操作

代码

#编写基于浏览器自动化的操作代码

- 发起请求: get(url)

- 标签定位: find系列的方法

- 标签交互: send_ keys( 'xxx' )

- 执行js程序: excute_script('jsCod')

- 前进,后退: back(),forward( )

- 关闭浏览器: quit()

代码

https://www.taobao.com/

from selenium import webdriver
from time import sleep

bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")

bro.get(url='https://www.taobao.com/')

#标签定位
search_input = bro.find_element_by_id('q')
sleep(2)
#执行一组js代码,使得滚轮向下滑动
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
#标签交互
search_input.send_keys('女装')
button = bro.find_element_by_class_name('btn-search')
button.click()

bro.get('https://www.baidu.com')
sleep(2)
bro.back()
sleep(2)
bro.forward()
sleep(5)
bro.quit()

selenium处理iframe:

- 如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id)

- 动作链(拖动) : from selenium. webdriver import ActionChains
	- 实例化一个动作链对象: action = ActionChains (bro)
	- click_and_hold(div) :长按且点击操作
	- move_by_offset(x,y)
	- perform( )让动作链立即执行
	- action.release( )释放动作链对象

代码

https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable

from selenium import webdriver
from time import sleep
from selenium.webdriver import ActionChains
bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")

bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

bro.switch_to.frame('iframeResult')

div = bro.find_element_by_id('draggable')

#动作链
action = ActionChains(bro)
action.click_and_hold(div)

for i in range(5):
 action.move_by_offset(17,0).perform()
 sleep(0.3)

#释放动作链
action.release()

bro.quit()

selenium模拟登陆QQ空间

代码

https://qzone.qq.com/

from selenium import webdriver
from time import sleep


bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")
bro.get('https://qzone.qq.com/')
bro.switch_to.frame("login_frame")

switcher = bro.find_element_by_id('switcher_plogin')
switcher.click()

user_tag = bro.find_element_by_id('u')
password_tag = bro.find_element_by_id('p')
user_tag.send_keys('1234455')
password_tag.send_keys('qwer123')
sleep(1)

but = bro.find_element_by_id('login_button')
but.click()

无头浏览器和规避检测

代码

from selenium import webdriver
from time import sleep
#实现无可视化界面
from selenium.webdriver.chrome.options import Options
#实现规避检测
from selenium.webdriver import ChromeOptions

#实现无可视化界面
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
#实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])

bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe",chrome_options=chrome_options,options=option)

bro.get('https://www.baidu.com')
print(bro.page_source)
sleep(2)
bro.quit()

到此这篇关于python爬虫selenium模块详解的文章就介绍到这了,更多相关python爬虫selenium模块内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现股市信息下载的方法
Jun 15 Python
详解Python的Django框架中的模版相关知识
Jul 15 Python
浅谈python中的占位符
Nov 09 Python
Python中pow()和math.pow()函数用法示例
Feb 11 Python
对numpy Array [: ,] 的取值方法详解
Jul 02 Python
python得到qq句柄,并显示在前台的方法
Oct 14 Python
python制作mysql数据迁移脚本
Jan 01 Python
Django中多种重定向方法使用详解
Jul 17 Python
python障碍式期权定价公式
Jul 19 Python
nginx+uwsgi+django环境搭建的方法步骤
Nov 25 Python
Python日期格式和字符串格式相互转换的方法
Feb 18 Python
python tkinter GUI绘制,以及点击更新显示图片代码
Mar 14 Python
python将图片转为矢量图的方法步骤
Mar 30 #Python
一文搞懂如何实现Go 超时控制
golang中的空接口使用详解
Mar 30 #Python
在 Golang 中实现 Cache::remember 方法详解
Mar 30 #Python
Python离线安装openpyxl模块的步骤
解决Jupyter-notebook不弹出默认浏览器的问题
Python爬取科目四考试题库的方法实现
You might like
Drupal读取Excel并导入数据库实例
2014/03/02 PHP
php+ajax实现无刷新动态加载数据技术
2015/04/28 PHP
Zend Framework实现自定义过滤器的方法
2016/12/09 PHP
php获取是星期几的的一些常用姿势
2019/12/15 PHP
如何运行/调试你的PHP代码
2020/10/23 PHP
css动画效果之animation的常用样式
2021/03/09 HTML / CSS
js判断是否为数组的函数: isArray()
2011/10/30 Javascript
JQuery魔力之$("tagName")与selector
2012/03/05 Javascript
如何在父窗口中得知window.open()出的子窗口关闭事件
2013/10/15 Javascript
js中javascript:void(0) 真正含义
2020/11/05 Javascript
jQuery实现批量判断表单中文本框非空的方法(2种方法)
2015/12/09 Javascript
JS常用正则表达式总结【经典】
2017/05/12 Javascript
javascript编程开发中取色器及封装$函数用法示例
2017/08/09 Javascript
jQuery除指定区域外点击任何地方隐藏DIV功能
2017/11/13 jQuery
详解Angularjs 自定义指令中的数据绑定
2018/07/19 Javascript
在小程序/mpvue中使用flyio发起网络请求的方法
2018/09/13 Javascript
Angular6 发送手机验证码按钮倒计时效果实现方法
2019/01/08 Javascript
微信小程序中插入激励视频广告并获取收益(实例代码)
2019/12/06 Javascript
在vue中使用cookie记住用户上次选择的实例(本次例子中为下拉框)
2020/09/11 Javascript
解决vue下载后台传过来的乱码流的问题
2020/12/05 Vue.js
python3调用R的示例代码
2018/02/23 Python
Python描述符descriptor使用原理解析
2020/03/21 Python
Python趣味实例,实现一个简单的抽奖刮刮卡
2020/07/18 Python
Python基于callable函数检测对象是否可被调用
2020/10/16 Python
Python3+Appium安装及Appium模拟微信登录方法详解
2021/02/16 Python
利用CSS3的3D效果制作正方体
2020/03/10 HTML / CSS
html5使用canvas绘制文字特效
2014/12/15 HTML / CSS
一文彻底解决HTML5页面中长按保存图片功能
2019/06/10 HTML / CSS
标准导师推荐信(医学类)
2013/10/28 职场文书
安全检查与奖惩制度
2014/01/23 职场文书
《鸿门宴》教学反思
2014/04/22 职场文书
大学生找工作求职信
2014/07/09 职场文书
2014年为民办实事工作总结
2014/12/20 职场文书
销售经理岗位职责
2015/01/31 职场文书
公司备用金管理制度
2015/08/04 职场文书
Golang连接并操作MySQL
2022/04/14 MySQL