python爬虫--selenium模块


Posted in Python onMarch 31, 2021

selenium模块

selenium基本概念

selenium优势

  • 便捷的获取网站中动态加载的数据
  • 便捷实现模拟登陆

selenium使用流程:

1.环境安装:

pip install selenium

2.下载一个浏览器的驱动程序(谷歌浏览器)

3.实例化一个浏览器对象

基本使用

代码

from selenium import webdriver
from lxml import etree
from time import sleep

if __name__ == '__main__':

    bro = webdriver.Chrome(r"E:\google\Chrome\Application\chromedriver.exe")
    bro.get(url='http://scxk.nmpa.gov.cn:81/xk/')

    page_text = bro.page_source
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//*[@id="gzlist"]/li')
    for li in li_list:
        name = li.xpath('./dl/@title')[0]
        print(name)
    sleep(5)
    bro.quit()

基于浏览器自动化的操作代码

#编写基于浏览器自动化的操作代码

- 发起请求: get(url)

- 标签定位: find系列的方法

- 标签交互: send_ keys( 'xxx' )

- 执行js程序: excute_script('jsCod')

- 前进,后退: back(),forward( )

- 关闭浏览器: quit()

代码

https://www.taobao.com/

from selenium import webdriver
from time import sleep

bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")

bro.get(url='https://www.taobao.com/')

#标签定位
search_input = bro.find_element_by_id('q')
sleep(2)
#执行一组js代码,使得滚轮向下滑动
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
#标签交互
search_input.send_keys('女装')
button = bro.find_element_by_class_name('btn-search')
button.click()

bro.get('https://www.baidu.com')
sleep(2)
bro.back()
sleep(2)
bro.forward()
sleep(5)
bro.quit()

selenium处理iframe:

- 如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id)

- 动作链(拖动) : from selenium. webdriver import ActionChains
	- 实例化一个动作链对象: action = ActionChains (bro)
	- click_and_hold(div) :长按且点击操作
	- move_by_offset(x,y)
	- perform( )让动作链立即执行
	- action.release( )释放动作链对象

代码

https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable

from selenium import webdriver
from time import sleep
from selenium.webdriver import ActionChains
bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")

bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

bro.switch_to.frame('iframeResult')

div = bro.find_element_by_id('draggable')

#动作链
action = ActionChains(bro)
action.click_and_hold(div)

for i in range(5):
    action.move_by_offset(17,0).perform()
    sleep(0.3)

#释放动作链
action.release()

bro.quit()

selenium模拟登陆QQ空间

代码

https://qzone.qq.com/

from selenium import webdriver
from time import sleep


bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")
bro.get('https://qzone.qq.com/')
bro.switch_to.frame("login_frame")

switcher = bro.find_element_by_id('switcher_plogin')
switcher.click()

user_tag = bro.find_element_by_id('u')
password_tag = bro.find_element_by_id('p')
user_tag.send_keys('1234455')
password_tag.send_keys('qwer123')
sleep(1)

but = bro.find_element_by_id('login_button')
but.click()

无头浏览器和规避检测

代码

from  selenium import webdriver
from time import sleep
#实现无可视化界面
from selenium.webdriver.chrome.options import Options
#实现规避检测
from selenium.webdriver import ChromeOptions

#实现无可视化界面
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
#实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])

bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe",chrome_options=chrome_options,options=option)

bro.get('https://www.baidu.com')
print(bro.page_source)
sleep(2)
bro.quit()
Python 相关文章推荐
python中base64加密解密方法实例分析
May 16 Python
Python工程师面试必备25条知识点
Jan 17 Python
Django读取Mysql数据并显示在前端的实例
May 27 Python
python编写简单端口扫描器
Sep 04 Python
Python获取对象属性的几种方式小结
Mar 12 Python
sklearn的predict_proba使用说明
Jun 28 Python
python 实现简单的计算器(gui界面)
Nov 11 Python
pycharm + django跨域无提示的解决方法
Dec 06 Python
tensorflow学习笔记之tfrecord文件的生成与读取
Mar 31 Python
python实现简单的井字棋
May 26 Python
你喜欢篮球吗?Python实现篮球游戏
Jun 11 Python
Python OpenCV实现图形检测示例详解
Apr 08 Python
【超详细】八大排序算法的各项比较以及各自特点
pandas 操作 Excel操作总结
Mar 31 #Python
字典算法实现及操作 --python(实用)
如何利用python和DOS获取wifi密码
python爬虫selenium模块详解
Mar 30 #Python
python将图片转为矢量图的方法步骤
Mar 30 #Python
一文搞懂如何实现Go 超时控制
You might like
php发送html格式文本邮件的方法
2015/06/10 PHP
PHP实现合并discuz用户
2015/08/05 PHP
PHP文字转图片功能原理与实现方法分析
2017/08/31 PHP
Laravel中七个非常有用但很少人知道的Carbon方法
2017/09/21 PHP
PHP fclose函数用法总结
2019/02/15 PHP
laravel 实现向公共模板中传值 (view composer)
2019/10/22 PHP
用正则获取指定路径文件的名称
2007/02/27 Javascript
Javascript 更新 JavaScript 数组的 uniq 方法
2008/01/23 Javascript
JS控件ASP.NET的treeview控件全选或者取消(示例代码)
2013/12/16 Javascript
JavaScript两种跨域技术全面介绍
2014/04/16 Javascript
js子页面获取父页面数据示例
2014/05/15 Javascript
JS中实现简单Formatter函数示例代码
2014/08/19 Javascript
JavaScript将DOM事件处理程序封装为event.js 出现的低级错误问题
2016/08/03 Javascript
Vue数组更新及过滤排序功能
2017/08/10 Javascript
使用原生js+canvas实现模拟心电图的实例
2017/09/20 Javascript
在一个页面实现两个zTree联动的方法
2017/12/20 Javascript
12条写出高质量JS代码的方法
2018/01/07 Javascript
详解vue项目接入微信JSSDK的坑
2018/12/14 Javascript
Node.js实现批量下载图片简单操作示例
2020/01/18 Javascript
通过angular CDK实现页面元素拖放的步骤详解
2020/07/01 Javascript
小程序实现简单语音聊天的示例代码
2020/07/24 Javascript
利用Python的Django框架中的ORM建立查询API
2015/04/20 Python
Python使用cx_Oracle调用Oracle存储过程的方法示例
2017/10/07 Python
Python 12306抢火车票脚本 Python京东抢手机脚本
2018/02/06 Python
mac安装pytorch及系统的numpy更新方法
2018/07/26 Python
python多进程并行代码实例
2019/09/30 Python
基于Pycharm加载多个项目过程图解
2020/01/19 Python
英国100%防污和防水的靴子:Muck Boot Company
2020/09/08 全球购物
俄罗斯鲜花递送:AMF
2020/04/24 全球购物
纪念建党演讲稿范文
2014/01/13 职场文书
幼儿园大班家长评语
2014/04/17 职场文书
酒店人事专员岗位职责
2015/04/07 职场文书
2015年大班保育员工作总结
2015/05/18 职场文书
Python-typing: 类型标注与支持 Any类型详解
2021/05/10 Python
实例讲解Python中sys.argv[]的用法
2021/06/03 Python
Javascript的promise,async和await的区别详解
2022/03/24 Javascript