python使用xslt提取网页数据的方法


Posted in Python onFebruary 23, 2018

1、引言

在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第一部分,实验了用xslt方式一次性提取静态网页内容并转换成xml格式。

2、用lxml库实现网页内容提取

lxml是python的一个库,可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且实现了常见的 ElementTree API。

这2天测试了在python中通过xslt来提取网页内容,记录如下:

2.1、抓取目标

假设要提取集搜客官网旧版论坛的帖子标题和回复数,如下图,要把整个列表提取出来,存成xml格式

 python使用xslt提取网页数据的方法

2.2、源代码1:只抓当前页,结果显示在控制台

Python的优势是用很少量代码就能解决一个问题,请注意下面的代码看起来很长,其实python函数调用没有几个,大篇幅被一个xslt脚本占去了,在这段代码中,只是一个好长的字符串而已,至于为什么选择xslt,而不是离散的xpath或者让人挠头的正则表达式,请参看《Python即时网络爬虫项目启动说明》,我们期望通过这个架构,把程序员的时间节省下来一大半。
可以拷贝运行下面的代码(在windows10, python3.2下测试通过):

from urllib import request 
from lxml import etree 
url="http://www.gooseeker.com/cn/forum/7" 
conn = request.urlopen(url) 
 
doc = etree.HTML(conn.read()) 
 
xslt_root = etree.XML("""\ 
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > 
<xsl:template match="/"> 
<列表> 
<xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/> 
</列表> 
</xsl:template> 
 
<xsl:template match="table/tbody/tr[position()>=1]" mode="list"> 
<item> 
<标题> 
<xsl:value-of select="*//*[@class='topic']/a/text()"/> 
<xsl:value-of select="*[@class='topic']/a/text()"/> 
<xsl:if test="@class='topic'"> 
<xsl:value-of select="a/text()"/> 
</xsl:if> 
</标题> 
<回复数> 
<xsl:value-of select="*//*[@class='replies']/text()"/> 
<xsl:value-of select="*[@class='replies']/text()"/> 
<xsl:if test="@class='replies'"> 
<xsl:value-of select="text()"/> 
</xsl:if> 
</回复数> 
</item> 
</xsl:template> 
 
<xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"> 
<item> 
<list> 
<xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/> 
</list> 
</item> 
</xsl:template> 
</xsl:stylesheet>""") 
 
transform = etree.XSLT(xslt_root) 
result_tree = transform(doc) 
print(result_tree)

源代码请通过本文结尾的GitHub源下载。

2.3、抓取结果

得到的抓取结果如下图:

 python使用xslt提取网页数据的方法

2.4、源代码2:翻页抓取,结果存入文件

我们对2.2的代码再做进一步修改,增加翻页抓取和存结果文件功能,代码如下:

from urllib import request 
from lxml import etree 
import time 
 
xslt_root = etree.XML("""\ 
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > 
<xsl:template match="/"> 
<列表> 
<xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/> 
</列表> 
</xsl:template> 
 
<xsl:template match="table/tbody/tr[position()>=1]" mode="list"> 
<item> 
<标题> 
<xsl:value-of select="*//*[@class='topic']/a/text()"/> 
<xsl:value-of select="*[@class='topic']/a/text()"/> 
<xsl:if test="@class='topic'"> 
<xsl:value-of select="a/text()"/> 
</xsl:if> 
</标题> 
<回复数> 
<xsl:value-of select="*//*[@class='replies']/text()"/> 
<xsl:value-of select="*[@class='replies']/text()"/> 
<xsl:if test="@class='replies'"> 
<xsl:value-of select="text()"/> 
</xsl:if> 
</回复数> 
</item> 
</xsl:template> 
 
<xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"> 
<item> 
<list> 
<xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/> 
</list> 
</item> 
</xsl:template> 
</xsl:stylesheet>""") 
 
baseurl = "http://www.gooseeker.com/cn/forum/7" 
basefilebegin = "jsk_bbs_" 
basefileend = ".xml" 
count = 1 
while (count < 12): 
  url = baseurl + "?page=" + str(count) 
  conn = request.urlopen(url) 
  doc = etree.HTML(conn.read()) 
  transform = etree.XSLT(xslt_root) 
  result_tree = transform(doc) 
  print(str(result_tree)) 
  file_obj = open(basefilebegin+str(count)+basefileend,'w',encoding='UTF-8') 
  file_obj.write(str(result_tree)) 
  file_obj.close() 
  count += 1 
  time.sleep(2)

我们增加了写文件的代码,还增加了一个循环,构造每个翻页的网址,但是,如果翻页过程中网址总是不变怎么办?其实这就是动态网页内容,下面会讨论这个问题。

3、总结

这是开源Python通用爬虫项目的验证过程,在一个爬虫框架里面,其它部分都容易做成通用的,就是网页内容提取和转换成结构化的操作难于通用,我们称之为提取器。但是,借助GooSeeker可视化提取规则生成器MS谋数台 ,提取器的生成过程将变得很便捷,而且可以标准化插入,从而实现通用爬虫,在后续的文章中会专门讲解MS谋数台与Python配合的具体方法。

4、接下来阅读

本文介绍的方法通常用来抓取静态网页内容,也就是所谓的html文档中的内容,目前很多网站内容是用javascript动态生成的,一开始html是没有这些内容的,通过后加载方式添加进来,那么就需要采用动态技术,请阅读《Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容》

5、集搜客GooSeeker开源代码下载源

1.GooSeeker开源Python网络爬虫GitHub源

6、文档修改历史

2016-05-26:V2.0,增补文字说明;把跟帖的代码补充了进来

2016-05-29:V2.1,增加最后一章源代码下载源

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
wxPython 入门教程
Oct 07 Python
Tornado Web服务器多进程启动的2个方法
Aug 04 Python
Linux环境下MySQL-python安装过程分享
Feb 02 Python
Django中对通过测试的用户进行限制访问的方法
Jul 23 Python
Python  pip安装lxml出错的问题解决办法
Feb 10 Python
python高斯分布概率密度函数的使用详解
Jul 10 Python
python程序中的线程操作 concurrent模块使用详解
Sep 23 Python
Python模块的定义,模块的导入,__name__用法实例分析
Jan 07 Python
tensorflow 报错unitialized value的解决方法
Feb 06 Python
python3.6.8 + pycharm + PyQt5 环境搭建的图文教程
Jun 11 Python
python中导入 train_test_split提示错误的解决
Jun 19 Python
Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作
Mar 03 Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
Python即时网络爬虫项目启动说明详解
Feb 23 #Python
Python爬豆瓣电影实例
Feb 23 #Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 #Python
Python各类图像库的图片读写方式总结(推荐)
Feb 23 #Python
python自动发邮件库yagmail的示例代码
Feb 23 #Python
You might like
php 验证码(倾斜,正弦干扰线,黏贴,旋转)
2013/06/29 PHP
基于PHP创建Cookie数组的详解
2013/07/03 PHP
Yii基于CActiveForm的Ajax数据验证用法示例
2016/07/14 PHP
PHP实现的最大正向匹配算法示例
2017/12/19 PHP
ExtJs 表单提交登陆实现代码
2010/08/19 Javascript
基于jquery扩展漂亮的CheckBox(自己编写)
2013/11/19 Javascript
网页右侧悬浮滚动在线qq客服代码示例
2014/04/28 Javascript
现代 JavaScript 开发编程风格Idiomatic.js指南中文版
2014/05/28 Javascript
JavaScript利用append添加元素报错的解决方法
2014/07/01 Javascript
JavaScript中的索引数组、关联数组和静态数组、动态数组讲解
2014/11/08 Javascript
AngularJs根据访问的页面动态加载Controller的解决方案
2015/02/04 Javascript
javascript随机抽取0-100之间不重复的10个数
2016/02/25 Javascript
微信小程序 增、删、改、查操作实例详解
2017/01/13 Javascript
bootstrap如何让dropdown menu按钮式下拉框长度一致
2017/04/10 Javascript
JS实现图片手风琴效果
2020/04/17 Javascript
vue实现类似淘宝商品评价页面星级评价及上传多张图片功能
2018/10/29 Javascript
Vue实现商品分类菜单数量提示功能
2019/07/26 Javascript
[01:39](回顾)各路豪强针锋相对,几经鏖战四强产生
2014/07/01 DOTA
Python采用Django制作简易的知乎日报API
2016/08/03 Python
浅谈Python实现贪心算法与活动安排问题
2017/12/19 Python
Python中 map()函数的用法详解
2018/07/10 Python
python-itchat 获取微信群用户信息的实例
2019/02/21 Python
使用matplotlib绘制图例标签中带有公式的图
2019/12/13 Python
Pytorch 多块GPU的使用详解
2019/12/31 Python
Python跑循环时内存泄露的解决方法
2020/01/13 Python
浅谈css3中的前缀
2016/07/20 HTML / CSS
配置H5的滚动条样式的示例代码
2018/03/09 HTML / CSS
Sixt美国租车:高端豪华车型自驾体验
2017/09/02 全球购物
Blancsom美国/加拿大:服装和生活用品供应商
2018/07/27 全球购物
中职应届生会计求职信
2013/10/23 职场文书
工作会议欢迎词
2014/01/16 职场文书
普通简短的个人自我评价
2014/02/15 职场文书
论文诚信承诺书
2014/05/23 职场文书
活动总结书怎么写
2015/05/11 职场文书
写给消防战士们的一封慰问信
2019/10/07 职场文书
python 实现图片特效处理
2022/04/03 Python