1分钟快速生成用于网页内容提取的xslt


Posted in Python onFebruary 23, 2018

1分钟快速生成用于网页内容提取的xslt,具体内容如下

1、项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。

网友必然会质疑:这个xslt这么长,编写不是要花很长时间?

实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。

2、MS谋数台能做什么

MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:

  • 基于直观标注自动生成XSLT
  • 即时测试XSLT的正确性
  • 树状的DOM结构展示
  • 剖析某个DOM节点的属性
  • 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位
  • 根据xpath搜索DOM节点

MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3、用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:
第一步,打开GooSeeker的MS谋数台,输入要抓取的网址
第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认

1分钟快速生成用于网页内容提取的xslt

第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来

1分钟快速生成用于网页内容提取的xslt

通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt

4、怎样使用XSLT

在python使用xslt提取网页数据一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在《python即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。

5、文档修改历史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python根据时间生成mongodb的ObjectId的方法
Mar 13 Python
分享一个常用的Python模拟登陆类
Mar 29 Python
python自动zip压缩目录的方法
Jun 28 Python
使用Python来开发Markdown脚本扩展的实例分享
Mar 04 Python
零基础使用Python读写处理Excel表格的方法
May 02 Python
python GUI实现小球满屏乱跑效果
May 09 Python
计算机二级python学习教程(1) 教大家如何学习python
May 16 Python
python itchat实现调用微信接口的第三方模块方法
Jun 11 Python
Python3安装psycopy2以及遇到问题解决方法
Jul 03 Python
linux下python中文乱码解决方案详解
Aug 28 Python
Anaconda之conda常用命令介绍(安装、更新、删除)
Oct 06 Python
python自动化测试三部曲之unittest框架的实现
Oct 07 Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
Python即时网络爬虫项目启动说明详解
Feb 23 #Python
Python爬豆瓣电影实例
Feb 23 #Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 #Python
Python各类图像库的图片读写方式总结(推荐)
Feb 23 #Python
You might like
PHP实现支持SSL连接的SMTP邮件发送类
2015/03/05 PHP
解决jquery版本冲突的有效方法
2014/09/02 Javascript
我用的一些Node.js开发工具、开发包、框架等总结
2014/09/25 Javascript
DOM 事件流详解
2015/01/20 Javascript
JS解析XML文件和XML字符串详解
2015/04/17 Javascript
浅谈JavaScript中的string拥有方法的原因
2015/08/28 Javascript
jQuery 1.9.1源码分析系列(十)事件系统之主动触发事件和模拟冒泡处理
2015/11/24 Javascript
JS实现获取当前URL和来源URL的方法
2016/08/24 Javascript
Vue2.0权限树组件实现代码
2017/08/29 Javascript
微信小程序实现滚动消息通知
2018/02/02 Javascript
layui添加动态菜单与选项卡
2019/07/26 Javascript
Vue 实现点击空白处隐藏某节点的三种方式(指令、普通、遮罩)
2019/10/23 Javascript
webpack常用构建优化策略小结
2019/11/21 Javascript
JavaScript计算正方形面积
2019/11/26 Javascript
微信小程序 SOTER 生物认证DEMO 指纹识别功能
2019/12/13 Javascript
js实现点赞按钮功能的实例代码
2020/03/06 Javascript
vue 虚拟DOM的原理
2020/10/03 Javascript
python中__call__内置函数用法实例
2015/06/04 Python
Python 爬虫之超链接 url中含有中文出错及解决办法
2017/08/03 Python
Python用于学习重要算法的模块pygorithm实例浅析
2018/08/16 Python
python numpy元素的区间查找方法
2018/11/14 Python
关于Django ForeignKey 反向查询中filter和_set的效率对比详解
2018/12/15 Python
python每5分钟从kafka中提取数据的例子
2019/12/23 Python
把vgg-face.mat权重迁移到pytorch模型示例
2019/12/27 Python
Python基础之列表常见操作经典实例详解
2020/02/26 Python
keras在构建LSTM模型时对变长序列的处理操作
2020/06/29 Python
Python实现自动签到脚本的示例代码
2020/08/19 Python
基于Django集成CAS实现流程详解
2020/11/28 Python
英国DIY和家居装饰领域的主要品牌:Wickes
2019/11/26 全球购物
Sahajan美国:阿育吠陀护肤品牌
2021/01/09 全球购物
关于环保的建议书400字
2014/03/12 职场文书
光棍节联谊晚会活动策划书
2014/10/10 职场文书
教师师德师风整改措施
2014/10/24 职场文书
2014年护理工作总结范文
2014/11/14 职场文书
毕业典礼主持词
2015/06/29 职场文书
90后经典动画片排行:《数码宝贝》第二,《小鲤鱼历险记》在榜
2022/03/18 日漫