编程 Python

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Posted in Python onFebruary 23, 2018

1、引言

在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第二部分，第一部分实验了用xslt方式一次性提取静态网页内容并转换成xml格式。留下了一个问题：javascript管理的动态内容怎样提取？那么本文就回答这个问题。

2、提取动态内容的技术部件

在上一篇python使用xslt提取网页数据中，要提取的内容是直接从网页的source code里拿到的。但是一些Ajax动态内容是在source code找不到的，就要找合适的程序库把异步或动态加载的内容加载上来，交给本项目的提取器进行提取。

python可以使用selenium执行javascript，selenium可以让浏览器自动加载页面，获取需要的数据。selenium自己不带浏览器，可以使用第三方浏览器如Firefox，Chrome等，也可以使用headless浏览器如PhantomJS在后台执行。

3、源代码和实验过程

假如我们要抓取京东手机页面的手机名称和价格(价格在网页源码是找不到的)，如下图：

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

第一步：利用集搜客谋数台的直观标注功能，可以极快速度自动生成一个调试好的抓取规则，其实是一个标准的xslt程序，如下图，把生成的xslt程序拷贝到下面的程序中即可。注意：本文只是记录实验过程，实际系统中，将采用多种方式把xslt程序注入到内容提取器重。

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

第二步：执行如下代码(在windows10， python3.2下测试通过，源代码下载地址请见文章末尾GitHub)，请注意：xslt是一个比较长的字符串，如果删除这个字符串，代码没有几行，足以见得Python之强大

#/usr/bin/python 
from urllib import request 
from lxml import etree 
from selenium import webdriver 
import time 
 
# 京东手机商品页面 
url = "http://item.jd.com/1312640.html" 
 
# 下面的xslt是通过集搜客的谋数台图形界面自动生成的 
xslt_root = etree.XML("""\ 
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > 
<xsl:template match="/"> 
<商品> 
<xsl:apply-templates select="//*[@id='itemInfo' and count(.//*[@id='summary-price']/div[position()=2]/strong/text())>0 and count(.//*[@id='name']/h1/text())>0]" mode="商品"/> 
</商品> 
</xsl:template> 
 
<xsl:template match="//*[@id='itemInfo' and count(.//*[@id='summary-price']/div[position()=2]/strong/text())>0 and count(.//*[@id='name']/h1/text())>0]" mode="商品"> 
<item> 
<价格> 
<xsl:value-of select="*//*[@id='summary-price']/div[position()=2]/strong/text()"/> 
<xsl:value-of select="*[@id='summary-price']/div[position()=2]/strong/text()"/> 
<xsl:if test="@id='summary-price'"> 
<xsl:value-of select="div[position()=2]/strong/text()"/> 
</xsl:if> 
</价格> 
<名称> 
<xsl:value-of select="*//*[@id='name']/h1/text()"/> 
<xsl:value-of select="*[@id='name']/h1/text()"/> 
<xsl:if test="@id='name'"> 
<xsl:value-of select="h1/text()"/> 
</xsl:if> 
</名称> 
</item> 
</xsl:template> 
</xsl:stylesheet>""") 
 
# 使用webdriver.PhantomJS 
browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe') 
browser.get(url) 
time.sleep(3) 
 
transform = etree.XSLT(xslt_root) 
 
# 执行js得到整个dom 
html = browser.execute_script("return document.documentElement.outerHTML") 
doc = etree.HTML(html) 
# 用xslt从dom中提取需要的字段 
result_tree = transform(doc) 
print(result_tree)

第三步：下图可以看到，网页中的手机名称和价格被正确抓取下来了

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

4、接下来阅读

至此，我们通过两篇文章演示怎样抓取静态和动态网页内容，都采用了xslt一次性将需要的内容从网页上提取出来，其实xslt是一个比较复杂的程序语言，如果手工编写xslt，那么还不如写成离散的xpath。如果这个xslt不是手工写出来的，而是程序自动生成的，这就有意义了，程序员再也不要花时间编写和调测抓取规则了，这是很费时费力的工作。下一篇《1分钟快速生成用于网页内容提取的xslt》将讲述怎样生成xslt。

5、集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

6、文档修改历史

2016-05-26：V2.0，增补文字说明
2016-05-29：V2.1，增加第五章：源代码下载源，并更换github源的网址

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

- Author -

fullerhua

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python修改MP3文件的方法

Jun 15 Python

Django自定义认证方式用法示例

Jun 23 Python

python操作excel的方法

Aug 16 Python

使用python读取.text文件特定行的数据方法

Jan 28 Python

python 实现读取一个excel多个sheet表并合并的方法

Feb 12 Python

解决yum对python依赖版本问题

Jul 05 Python

TensorFlow2.0矩阵与向量的加减乘实例

Feb 07 Python

Python实现队列的方法示例小结【数组，链表】

Feb 22 Python

通过实例解析python创建进程常用方法

Jun 19 Python

Ubuntu 20.04安装Pycharm2020.2及锁定到任务栏的问题(小白级操作)

Oct 29 Python

Python descriptor(描述符)的实现

Nov 15 Python

重构Python代码的六个实例

Nov 25 Python

python爬虫获取多页天涯帖子

Feb 23 #Python

Python即时网络爬虫项目启动说明详解

Feb 23 #Python

Python爬豆瓣电影实例

Feb 23 #Python

Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地

Feb 23 #Python

Python各类图像库的图片读写方式总结(推荐)

Feb 23 #Python

python自动发邮件库yagmail的示例代码

Feb 23 #Python

Python KMeans聚类问题分析

Feb 23 #Python

You might like

给php新手谈谈我的学习心得

2007/02/25 PHP

php array_merge函数使用需要注意的一个问题

2015/03/30 PHP

在Yii2中使用Pjax导致Yii2内联脚本载入失败的原因分析

2016/03/06 PHP

总结PHP如何获取当前主机、域名、网址、路径、端口和参数等

2016/09/09 PHP

微信支付的开发流程详解

2016/09/13 PHP

PHP实现QQ快速登录的方法

2016/09/28 PHP

PHP命名空间与自动加载类详解

2018/09/04 PHP

Laravel框架查询构造器简单示例

2019/05/08 PHP

JavaScript 操作键盘的Enter事件（键盘任何事件），兼容多浏览器

2010/10/11 Javascript

两个select多选模式的选项相互移动(示例代码)

2014/01/11 Javascript

JS+CSS实现的经典tab选项卡效果代码

2015/09/16 Javascript

使用Angular.js实现简单的购物车功能

2016/11/21 Javascript

less简单入门(CSS 预处理语言)

2017/03/08 Javascript

vue-router中的hash和history两种模式的区别

2018/07/17 Javascript

vuejs 制作背景淡入淡出切换动画的实例

2018/09/01 Javascript

了解JavaScript中的选择器

2019/05/24 Javascript

vue仿淘宝滑动验证码功能(样式模仿)

2019/12/10 Javascript

微信小程序开发（一）：服务器获取数据列表渲染操作示例

2020/06/01 Javascript

使用nodejs实现JSON文件自动转Excel的工具(推荐)

2020/06/24 NodeJs

[39:11]DOTA2上海特级锦标赛C组资格赛#2 LGD VS Newbee第二局

2016/02/28 DOTA

Python实现从百度API获取天气的方法

2015/03/11 Python

python扫描proxy并获取可用代理ip的实例

2017/08/07 Python

用python处理图片之打开\显示\保存图像的方法

2018/05/04 Python

利用pyshp包给shapefile文件添加字段的实例

2019/12/06 Python

Python高阶函数、常用内置函数用法实例分析

2019/12/26 Python

Nordgreen英国官网：斯堪的纳维亚设计师手表

2018/10/24 全球购物

莫斯科的韩国化妆品店：Sifo

2019/12/04 全球购物

Wiggle澳大利亚：自行车、跑步、游泳商店

2020/11/07 全球购物

递归实现回文判断（如：abcdedbca就是回文，判断一个面试者对递归理解的简单程序）

2013/04/28 面试题

采购人员的个人自我评价

2014/01/16 职场文书

中层干部培训方案

2014/06/16 职场文书

国贸专业求职信

2014/06/28 职场文书

建筑安全生产责任书

2014/07/22 职场文书

工厂仓库管理员岗位职责

2015/04/09 职场文书

高中生军训感言

2015/08/01 职场文书

pnpm对npm及yarn降维打击详解

2022/08/05 Javascript