编程 Python

python爬虫selenium和phantomJs使用方法解析

Posted in Python onAugust 08, 2019

1.selenum：三方库。可以实现让浏览器完成自动化的操作。

2.环境搭建

2.1 安装：

pip install selenium

2.2 获取浏览器的驱动程序

下载地址：

http://chromedriver.storage.googleapis.com/index.html

http://npm.taobao.org/mirrors/chromedriver/

浏览器版本和驱动版本的对应关系表：

chromedriver版本	支持的Chrome版本
v2.46	v71-73
v2.45	v70-72
v2.44	v69-71
v2.43	v69-71
v2.42	v68-70
v2.41	v67-69
v2.40	v66-68
v2.39	v66-68
v2.38	v65-67
v2.37	v64-66
v2.36	v63-65
v2.35	v62-64
v2.34	v61-63
v2.33	v60-62
v2.32	v59-61
v2.31	v58-60
v2.30	v58-60
v2.29	v56-58
v2.28	v55-57
v2.27	v54-56
v2.26	v53-55
v2.25	v53-55
v2.24	v52-54
v2.23	v51-53
v2.22	v49-52
v2.21	v46-50
v2.20	v43-48
v2.19	v43-47
v2.18	v43-46
v2.17	v42-43
v2.13	v42-45
v2.15	v40-43
v2.14	v39-42
v2.13	v38-41
v2.12	v36-40
v2.11	v36-40
v2.10	v33-36
v2.9	v31-34
v2.8	v30-33
v2.7	v30-33
v2.6	v29-32
v2.5	v29-32
v2.4	v29-32

所有chromedriver均可在下面链接中下载到：

http://chromedriver.storage.googleapis.com/index.html

现在有一点好的是出了按照chrome版本对应的driver，直接按照浏览器版本去找对应的driver（只对应大版本就行），不用再费心去对应了，大家可以尝试一下

python爬虫selenium和phantomJs使用方法解析

有些同学说下不了，到taobao下也是可以的：

http://npm.taobao.org/mirrors/chromedriver/

定位元素的8种方式：

#使用下面的方法，查找指定的元素进行操作即可
find_element_by_id 根据id找节点
find_elements_by_name 根据name找
find_elements_by_xpath 根据xpath查找
find_elements_by_tag_name 根据标签名找
find_elements_by_class_name 根据class名字查找
# 通过id定位:
dr.find_element_by_id("kw")

# 通过name定位:
dr.find_element_by_name("wd")

# 通过class name定位:
dr.find_element_by_class_name("s_ipt")

# 通过tag name定位:
dr.find_element_by_tag_name("input")

# 通过xpath定位，xpath定位有N种写法，这里列几个常用写法:
dr.find_element_by_xpath("//*[@id='kw']")
dr.find_element_by_xpath("//*[@name='wd']")
dr.find_element_by_xpath("//input[@class='s_ipt']")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("//span[@class='soutu-btn']/input")
dr.find_element_by_xpath("//form[@id='form']/span/input")
dr.find_element_by_xpath("//input[@id='kw' and @name='wd']")

# 通过css定位，css定位有N种写法，这里列几个常用写法:
dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")

接下来，我们的页面上有一组文本链接。

<a class="mnav" href="http://news.baidu.com" rel="external nofollow" name="tj_trnews">新闻</a>
<a class="mnav" href="http://www.hao123.com" rel="external nofollow" name="tj_trhao123">hao123</a>

# 通过link text定位:
dr.find_element_by_link_text("新闻")
dr.find_element_by_link_text("hao123")

# 通过partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")

Selenium库下webdriver模块常用方法的使用

控制浏览器操作的一些方法

方法说明

set_window_size() 设置浏览器的大小
back() 控制浏览器后退
forward() 控制浏览器前进
refresh() 刷新当前页面
clear() 清除文本
send_keys (value) 模拟按键输入
click() 单击元素
submit() 用于提交表单
get_attribute(name) 获取元素属性值
is_displayed() 设置该元素是否用户可见
size 返回元素的尺寸
text 获取元素的文本

---------------------

例子：

1.chrom浏览器自动搜索

from selenium import webdriver
from time import sleep
# 创建浏览器对象 驱动为浏览器的路径
bro = webdriver.Chrome("./chromedriver.exe")
url = "https://www.baidu.com"7 # 发送请求
bro.get(url)
# 让百度指定词条的搜索
text = bro.find_element_by_id('kw')
# 发送关键字
text.send_keys('python')
# 点击搜索按钮
button = bro.find_element_by_id('su')
button.click()
# 关闭浏览器
bro.quit()

2.phantomjs无界面浏览器,其自动化流程上述操作谷歌自动化流程一致。

from selenium import webdriver
from time import sleep
bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬虫课件/5. 动态数据加载
爬取\phantomjs?2.1.1?windows/bin/phantomjs.exe')
url = "https://www.baidu.com"
# 发送请求
bro.get(url)
bro.save_screenshot('./1.png')
# 让百度指定词条的搜索
text = bro.find_element_by_id('kw')
# 发送关键字
text.send_keys('python')
bro.save_screenshot('./2.png')
# 点击搜索按钮
button = bro.find_element_by_id('su')
button.click()
sleep(3)
bro.save_screenshot('./3.png')
# 关闭浏览器
bro.quit()

3.豆瓣网电影排行榜滚动条数据

from selenium import webdriver
from time import sleep3 url = 'https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&typ
e=24&interval_id=100:90&action='
bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬虫课件/5. 动态数据加载
爬取\phantomjs?2.1.1?windows/bin/phantomjs.exe')
bro.get(url)
sleep(1)
bro.save_screenshot("./1.png")
js = 'window.scrollTo(0,document.body.scrollHeight)'
# 执行js代码 滚动条
bro.execute_script(js)
sleep(1)
bro.save_screenshot('./2.png')
# 获取页面数据
page_source = bro.page_source
print(page_source)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python爬虫selenium和phantomJs使用方法解析

- Author -

一觉昏睡人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python-基础-入门简介

Aug 09 Python

Python contextlib模块使用示例

Feb 18 Python

Python实现大文件排序的方法

Jul 10 Python

Python时间戳使用和相互转换详解

Dec 11 Python

python实现SOM算法

Feb 23 Python

基于pip install django失败时的解决方法

Jun 12 Python

Python3.7安装keras和TensorFlow的教程图解

Jun 18 Python

python模拟点击网页按钮实现方法

Feb 25 Python

Python 格式化打印json数据方法(展开状态)

Feb 27 Python

如何解决python多种版本冲突问题

Oct 13 Python

python openCV自制绘画板

Oct 27 Python

python爬虫判断招聘信息是否存在的实例代码

Nov 20 Python

Python2和3字符编码的区别知识点整理

Aug 08 #Python

Python编程中类与类的关系详解

Aug 08 #Python

python os.fork() 循环输出方法

Aug 08 #Python

对python中的os.getpid()和os.fork()函数详解

Aug 08 #Python

在Python中os.fork()产生子进程的例子

Aug 08 #Python

Python如何使用k-means方法将列表中相似的句子归类

Aug 08 #Python

python实现图像检索的三种(直方图/OpenCV/哈希法)

Aug 08 #Python

flex(1) #{}(1) 选择器(1) flex-shrink(1) 克隆(1) 代理(2) 外键(1) SQL注入(2) canvas(2) 图片模糊(1)

You might like

PHP跳转页面的几种实现方法详解

2013/06/08 PHP

PHP 下载文件时自动添加bom头的方法实例

2014/01/10 PHP

php实现微信公众平台账号自定义菜单类

2015/10/11 PHP

php实现处理输入转义字符的代码

2015/11/08 PHP

Zend Framework框架教程之Zend_Db_Table_Rowset用法实例分析

2016/03/21 PHP

PHP入门教程之字符串处理技巧总结(转换,过滤,解析,查找,截取,替换等)

2016/09/11 PHP

jQuery实现的立体文字渐变效果

2010/05/17 Javascript

学习并汇集javascript匿名函数

2010/11/25 Javascript

自己动手制作jquery插件之自动添加删除行的实现

2011/10/13 Javascript

js导出table到excel同时兼容FF和IE示例

2013/09/03 Javascript

jquery实现table鼠标经过变色代码

2013/09/25 Javascript

了解Javascript的模块化开发

2015/03/02 Javascript

JavaScript程序设计之JS调试

2015/12/09 Javascript

js+html5实现的自由落体运动效果代码

2016/01/28 Javascript

微信小程序之绑定点击事件实例详解

2017/07/07 Javascript

一个有意思的鼠标点击文字特效jquery代码

2017/09/23 jQuery

解决vue数组中对象属性变化页面不渲染问题

2018/08/09 Javascript

JavaScript 判断iPhone X Series机型的方法

2019/01/28 Javascript

Vue实战教程之仿肯德基宅急送App

2019/07/19 Javascript

VUE使用 wx-open-launch-app 组件开发微信打开APP功能

2020/08/11 Javascript

JS中队列和双端队列实现及应用详解

2020/09/29 Javascript

python中mechanize库的简单使用示例

2014/01/10 Python

python在windows和linux下获得本机本地ip地址方法小结

2015/03/20 Python

Python 编码处理-str与Unicode的区别

2016/09/06 Python

python中requests库session对象的妙用详解

2017/10/30 Python

python实现简单登陆流程的方法

2018/04/22 Python

python实现简单flappy bird

2018/12/24 Python

利用selenium爬虫抓取数据的基础教程

2019/06/10 Python

解决Pycharm 导入其他文件夹源码的2种方法

2020/02/12 Python

Python datetime模块使用方法小结

2020/06/18 Python

Python如何实现大型数组运算（使用NumPy）

2020/07/24 Python

玖熙女鞋美国官网：Nine West

2016/10/06 全球购物

意大利高端时尚买手店：Stefania Mode

2018/03/01 全球购物

计算机通信专业推荐信

2014/02/22 职场文书

上课玩手机的检讨书

2014/10/01 职场文书

合作意向书怎么写

2019/06/24 职场文书