1分钟快速生成用于网页内容提取的xslt


Posted in Python onFebruary 23, 2018

1分钟快速生成用于网页内容提取的xslt,具体内容如下

1、项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。

网友必然会质疑:这个xslt这么长,编写不是要花很长时间?

实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。

2、MS谋数台能做什么

MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:

  • 基于直观标注自动生成XSLT
  • 即时测试XSLT的正确性
  • 树状的DOM结构展示
  • 剖析某个DOM节点的属性
  • 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位
  • 根据xpath搜索DOM节点

MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3、用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:
第一步,打开GooSeeker的MS谋数台,输入要抓取的网址
第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认

1分钟快速生成用于网页内容提取的xslt

第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来

1分钟快速生成用于网页内容提取的xslt

通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt

4、怎样使用XSLT

在python使用xslt提取网页数据一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在《python即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。

5、文档修改历史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的对象,方法,类,实例,函数用法分析
Jan 15 Python
Python3字符串学习教程
Aug 20 Python
python Pygame的具体使用讲解
Nov 03 Python
单利模式及python实现方式详解
Mar 20 Python
python文本数据处理学习笔记详解
Jun 17 Python
python线程信号量semaphore使用解析
Nov 30 Python
Python实现发票自动校核微信机器人的方法
May 22 Python
Python如何读取、写入JSON数据
Jul 28 Python
Python 整行读取文本方法并去掉readlines换行\n操作
Sep 03 Python
Python求区间正整数内所有素数之和的方法实例
Oct 13 Python
Python常用扩展插件使用教程解析
Nov 02 Python
Python脚本调试工具安装过程
Jan 11 Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
Python即时网络爬虫项目启动说明详解
Feb 23 #Python
Python爬豆瓣电影实例
Feb 23 #Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 #Python
Python各类图像库的图片读写方式总结(推荐)
Feb 23 #Python
You might like
用PHP生成静态HTML速度快类库
2007/03/18 PHP
使用PHP实现Mysql读写分离
2013/06/28 PHP
PHP实现链式操作的原理详解
2016/09/16 PHP
PHP通过GD库实现验证码功能示例
2019/02/23 PHP
yii框架结合charjs统计上一年与当前年数据的方法示例
2020/04/04 PHP
根据分辩率调用不同的CSS.
2007/01/08 Javascript
优化 JavaScript 代码的方法小结
2009/07/16 Javascript
javascript内存管理详细解析
2013/11/11 Javascript
javascript实现浏览器窗口传递参数的方法
2014/09/03 Javascript
网页中表单按回车就自动提交的问题的解决方案
2014/11/03 Javascript
js实现简单随机抽奖的方法
2015/01/27 Javascript
JavaScript数组随机排列实现随机洗牌功能
2015/03/19 Javascript
js实现缓冲运动效果的方法
2015/04/10 Javascript
js操作DOM--添加、删除节点的简单实例
2016/07/08 Javascript
ES6概念 ymbol.for()方法
2016/12/25 Javascript
通过BootStrap-select插件 js jQuery控制select属性变化
2017/01/03 Javascript
使用base64对图片的二进制进行编码并用ajax进行显示
2017/01/03 Javascript
jQuery点击导航栏选中更换样式的实现代码
2017/01/23 Javascript
JavaScript获取ul中li个数的方法
2017/02/13 Javascript
Vue.js结合bootstrap实现分页控件
2017/03/10 Javascript
JavaScript简单计算人的年龄示例
2017/04/15 Javascript
神级程序员JavaScript300行代码搞定汉字转拼音
2017/05/20 Javascript
vue响应式系统之observe、watcher、dep的源码解析
2019/04/09 Javascript
Python中py文件引用另一个py文件变量的方法
2018/04/29 Python
python实现年会抽奖程序
2019/01/22 Python
分享PyCharm的几个使用技巧
2019/11/10 Python
html5如何及时更新缓存文件(js、css或图片)
2013/06/24 HTML / CSS
法国娇韵诗官方旗舰店:Clarins是来自法国的天然护肤品牌
2018/06/30 全球购物
ZWILLING双立人法国网上商店:德国刀具锅具厨具品牌
2019/08/28 全球购物
strstr()的简单实现
2013/09/26 面试题
超市重阳节活动方案
2014/02/10 职场文书
《燕子》教学反思
2014/02/18 职场文书
预备党员群众路线思想汇报2014
2014/10/25 职场文书
2015年医德考评自我评价
2015/03/03 职场文书
2015年卫生局工作总结
2015/07/24 职场文书
诚信考试主题班会
2015/08/17 职场文书