详解Selenium+PhantomJS+python简单实现爬虫的功能


Posted in Python onJuly 14, 2019

Selenium

一、简介

selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样

selenium2支持通过驱动真实浏览器(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)

selenium2支持通过驱动无界面浏览器(HtmlUnit,PhantomJs)

二、安装

Windows

第一种方法是:下载源码安装,下载地址(https://pypi.python.org/pypi/selenium)解压并把整个目录放到C:\Python27\Lib\site-packages下面

第二种方法是:可以直接在C:\Python27\Scripts 下输入命令安装 pip install -U selenium

sudo pip install selenium

PhantomJS

一、简介

PhantomJS 是一个基于 WebKit(WebKit是一个开源的浏览器引擎,Chrome,Safari就是用的这个浏览器引擎) 的服务器端 JavaScript API,主要应用场景是:无需浏览器的 Web 测试,页面访问自动化,屏幕捕获,网络监控

二、安装

Windows

下载源码安装,下载地址(http://phantomjs.org/download.html)解压并把解压缩的路径添加到环境变量中即可,我自己的放到了C:\Python27\Scripts 下面

Linux

sudo apt-get install PhantomJS

Selenium + PhantomJS + python 简单实现爬虫的功能

python可以使用selenium执行javascript,selenium可以让浏览器自动加载页面,获取需要的数据。selenium自己不带浏览器,可以使用第三方浏览器如Firefox,Chrome等,也可以使用headless浏览器如PhantomJS在后台执行。
在工作用遇到一个问题,当加载一个手机端的URL时候,会加载不上,需要我们在请求头中设置一个User-Agent,设置完以后就可以打开了(Windows下执行,linux下执行的话就不用加executable_path='C:\Python27\Scripts\phantomjs.exe')

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
 
dcap = dict(DesiredCapabilities.PHANTOMJS) #设置userAgent
dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ")
 
obj = webdriver.PhantomJS(executable_path='C:\Python27\Scripts\phantomjs.exe',desired_capabilities=dcap) #加载网址
obj.get('http://wap.95533pc.com')#打开网址
obj.save_screenshot("1.png") #截图保存
obj.quit() # 关闭浏览器。当出现异常时记得在任务浏览器中关闭PhantomJS,因为会有多个PhantomJS在运行状态,影响电脑性能

一、超时设置

webdriver类中有三个和时间相关的方法:

1.pageLoadTimeout    设置页面完全加载的超时时间,完全加载即完全渲染完成,同步和异步脚本都执行完
2.setScriptTimeout    设置异步脚本的超时时间
3.implicitlyWait         识别对象的智能等待时间

下面我们以获取校花网title为例来验证效果,因为校花网中图片比较多,所以加载的时间比较长,更能时间我们的效果(另一原因我就不说了,这样才能让我们学起来带劲,哈哈!!!)

from selenium import webdriver
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
obj.set_page_load_timeout(5)
try:
 obj.get('http://www.xiaohuar.com')
 print obj.title
except Exception as e:
 print e

二、元素的定位

对象的定位是通过属性定位来实现的,这种属性就像人的身份证信息一样,或是其他的一些信息来找到这个对象,那我们下面就介绍下Webdriver提供的几个常用的定位方法

<input id="kw" name="wd" class="s_ipt" value="" maxlength="255" autocomplete="off">

上面这个是百度的输入框,我们可以发现我们可以用id来定位这个标签,然后就可以进行后面的操作了

from selenium import webdriver
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
obj.set_page_load_timeout(5)
try:
 obj.get('http://www.baidu.com')
 obj.find_element_by_id('kw')     #通过ID定位
 obj.find_element_by_class_name('s_ipt')   #通过class属性定位
 obj.find_element_by_name('wd')     #通过标签name属性定位
 obj.find_element_by_tag_name('input')   #通过标签属性定位
 obj.find_element_by_css_selector('#kw')   #通过css方式定位
 obj.find_element_by_xpath("//input[@id='kw']") #通过xpath方式定位
 obj.find_element_by_link_text("贴吧")   #通过xpath方式定位
 
 print obj.find_element_by_id('kw').tag_name #获取标签的类型
except Exception as e:
 print e

 三、浏览器的操作

1、调用启动的浏览器不是全屏的,有时候会影响我们的某些操作,所以我们可以设置全屏

from selenium import webdriver
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
obj.set_page_load_timeout(5)
obj.maximize_window() #设置全屏
try:
 obj.get('http://www.baidu.com')
 obj.save_screenshot('11.png') # 截取全屏,并保存
except Exception as e:
 print e

2、设置浏览器宽、高

from selenium import webdriver
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
obj.set_page_load_timeout(5)
obj.set_window_size('480','800') #设置浏览器宽480,高800
try:
 obj.get('http://www.baidu.com')
 obj.save_screenshot('12.png') # 截取全屏,并保存
except Exception as e:
 print e

3、操作浏览器前进、后退

from selenium import webdriver
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
try:
 obj.get('http://www.baidu.com') #访问百度首页
 obj.save_screenshot('1.png')
 obj.get('http://www.sina.com.cn') #访问新浪首页
 obj.save_screenshot('2.png')
 obj.back()       #回退到百度首页
 obj.save_screenshot('3.png')
 obj.forward()      #前进到新浪首页
 obj.save_screenshot('4.png')
except Exception as e:
 print e

四、操作测试对象

定位到元素以后,我们就应该对相应的对象进行某些操作,以达到我们某些特定的目的,那我们下面就介绍下Webdriver提供的几个常用的操作方法

from selenium import webdriver
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
obj.set_page_load_timeout(5)
try:
 obj.get('http://www.baidu.com')
 print obj.find_element_by_id("cp").text # 获取元素的文本信息
 obj.find_element_by_id('kw').clear()    #用于清除输入框的内容
 obj.find_element_by_id('kw').send_keys('Hello') #在输入框内输入Hello
 obj.find_element_by_id('su').click()    #用于点击按钮
 obj.find_element_by_id('su').submit()    #用于提交表单内容
 
except Exception as e:
 print e

五、键盘事件

1、键盘按键用法

from selenium.webdriver.common.keys import Keys
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
obj.set_page_load_timeout(5)
try:
 obj.get('http://www.baidu.com')
 obj.find_element_by_id('kw').send_keys(Keys.TAB) #用于清除输入框的内容,相当于clear()
 obj.find_element_by_id('kw').send_keys('Hello') #在输入框内输入Hello
 obj.find_element_by_id('su').send_keys(Keys.ENTER) #通过定位按钮,通过enter(回车)代替click()
 
except Exception as e:
 print e

2、键盘组合键使用

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
obj.set_page_load_timeout(5)
try:
 obj.get('http://www.baidu.com')
 obj.find_element_by_id('kw').send_keys(Keys.TAB) #用于清除输入框的内容,相当于clear()
 obj.find_element_by_id('kw').send_keys('Hello') #在输入框内输入Hello
 obj.find_element_by_id('kw').send_keys(Keys.CONTROL,'a') #ctrl + a 全选输入框内容
 obj.find_element_by_id('kw').send_keys(Keys.CONTROL,'x') #ctrl + x 剪切输入框内容
 
except Exception as e:
 print e

六、中文乱码问题

selenium2 在python的send_keys()中输入中文会报错,其实在中文前面加一个u变成unicode就能搞定了

七、鼠标事件

1、鼠标右击

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
try:
 obj.get("http://pan.baidu.com")
 obj.find_element_by_id('TANGRAM__PSP_4__userName').send_keys('13201392325') #定位并输入用户名
 obj.find_element_by_id('TANGRAM__PSP_4__password').send_keys('18399565576lu') #定位并输入密码
 obj.find_element_by_id('TANGRAM__PSP_4__submit').submit()      #提交表单内容
 f = obj.find_element_by_xpath('/html/body/div/div[2]/div[2]/....')    #定位到要点击的标签
 ActionChains(obj).context_click(f).perform()          #对定位到的元素进行右键点击操作
 
except Exception as e:
 print e

2、鼠标双击 

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
obj = webdriver.PhantomJS(executable_path="D:\Python27\Scripts\phantomjs.exe")
try:
 obj.get("http://pan.baidu.com")
 obj.find_element_by_id('TANGRAM__PSP_4__userName').send_keys('13201392325') #定位并输入用户名
 obj.find_element_by_id('TANGRAM__PSP_4__password').send_keys('18399565576lu') #定位并输入密码
 obj.find_element_by_id('TANGRAM__PSP_4__submit').submit()      #提交表单内容
 f = obj.find_element_by_xpath('/html/body/div/div[2]/div[2]/....')    #定位到要点击的标签
 ActionChains(obj).double_click(f).perform()          #对定位到的元素进行双击操作
 
except Exception as e:
 print e

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 时间处理datetime实例
Sep 06 Python
python正则表达式match和search用法实例
Mar 26 Python
编写Python CGI脚本的教程
Jun 29 Python
Python写入CSV文件的方法
Jul 08 Python
Python编程中time模块的一些关键用法解析
Jan 19 Python
python结合selenium获取XX省交通违章数据的实现思路及代码
Jun 26 Python
python实现list元素按关键字相加减的方法示例
Jun 09 Python
Django安装配置mysql的方法步骤
Oct 15 Python
Python列表推导式实现代码实例
Sep 09 Python
python如何绘制疫情图
Sep 16 Python
Python使用Kubernetes API访问集群
May 30 Python
pytorch中的torch.nn.Conv2d()函数图文详解
Feb 28 Python
python基于Selenium的web自动化框架
Jul 14 #Python
Django项目使用CircleCI的方法示例
Jul 14 #Python
Python实现最常见加密方式详解
Jul 13 #Python
python Pandas库基础分析之时间序列的处理详解
Jul 13 #Python
简单了解python反射机制的一些知识
Jul 13 #Python
Python3内置模块之base64编解码方法详解
Jul 13 #Python
Python3enumrate和range对比及示例详解
Jul 13 #Python
You might like
php面向对象全攻略 (六)__set() __get() __isset() __unset()的用法
2009/09/30 PHP
解析:php调用MsSQL存储过程使用内置RETVAL获取过程中的return值
2013/07/03 PHP
php curl 获取https请求的2种方法
2015/04/27 PHP
不用MOUSEMOVE也能滑动啊
2007/05/23 Javascript
jquery对象和DOM对象的区别介绍
2013/08/09 Javascript
FF IE浏览器修改标签透明度的方法
2014/01/27 Javascript
Jquery 获取指定标签的对象及属性的设置与移除
2014/05/29 Javascript
Jquery之Bind方法参数传递与接收的三种方法
2014/06/24 Javascript
jquery实现页面百叶窗走马灯式翻滚显示效果的方法
2015/03/12 Javascript
jQuery获取attr()与prop()属性值的方法及区别介绍
2016/07/06 Javascript
用原生js统计文本行数的简单示例
2016/08/19 Javascript
简单理解vue中实例属性vm.$els
2016/12/01 Javascript
js实现点击按钮弹出上传文件的窗口
2016/12/23 Javascript
js实现短信发送倒计时功能(正则验证)
2017/02/10 Javascript
基于vuejs实现一个todolist项目
2017/04/11 Javascript
vue.js中created方法作用
2018/03/30 Javascript
[00:15]TI9地铁玩家打卡
2019/08/11 DOTA
python实现查询苹果手机维修进度
2015/03/16 Python
初步解析Python中的yield函数的用法
2015/04/03 Python
Python配置mysql的教程(推荐)
2017/10/13 Python
Python登录并获取CSDN博客所有文章列表代码实例
2017/12/28 Python
python+ffmpeg视频并发直播压力测试
2018/03/06 Python
python 实现查找文件并输出满足某一条件的数据项方法
2019/06/12 Python
pytorch 在网络中添加可训练参数,修改预训练权重文件的方法
2019/08/17 Python
Python socket 套接字实现通信详解
2019/08/27 Python
python自动分箱,计算woe,iv的实例代码
2019/11/22 Python
印度购物网站:TATA CLiQ
2017/11/23 全球购物
船餐厅和泰晤士河餐饮游轮:Bateaux London
2018/03/19 全球购物
网站域名和主机:Domain.com
2019/04/01 全球购物
如何转换一个字符串到enum值
2014/04/12 面试题
新员工试用期自我鉴定
2014/04/17 职场文书
员工保密承诺书
2014/05/28 职场文书
低碳生活的宣传标语
2014/06/23 职场文书
毕业实习证明范本
2015/06/16 职场文书
2016年三八红旗手先进事迹材料
2016/02/26 职场文书
重温经典:乔布斯在斯坦福大学的毕业演讲(双语)
2019/08/26 职场文书