dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
php radio 单选框获取与保持值的实现代码
May 15 PHP
PHP curl模拟浏览器采集阿里巴巴的实现代码
Apr 20 PHP
php array_filter除去数组中的空字符元素
Jun 21 PHP
php实现图片缩放功能类
Dec 18 PHP
PHP操作mysql数据库分表的方法
Jun 09 PHP
PHP自定义多进制的方法
Nov 03 PHP
PHP用mysql_insert_id()函数获得刚插入数据或当前发布文章的ID
Nov 25 PHP
yii2实现 &quot;上一篇,下一篇&quot; 功能的代码实例
Feb 04 PHP
YII2框架中使用yii.js实现的post请求
Apr 09 PHP
详解PHP实现支付宝小程序用户授权的工具类
Dec 25 PHP
php实现session共享的实例方法
Sep 19 PHP
php双向队列实例讲解
Nov 17 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
聊天室php&amp;mysql(一)
2006/10/09 PHP
完美解决:Apache启动问题―(OS 10022)提供了一个无效的参数
2013/06/08 PHP
php将图片文件转换成二进制输出的方法
2015/06/10 PHP
PHP 获取ip地址代码汇总
2015/07/05 PHP
php实现背景图上添加圆形logo图标的方法
2016/11/17 PHP
thinkPHP框架可添加js事件的分页类customPage.class.php完整实例
2017/03/16 PHP
jQuery 表单验证扩展(三)
2010/10/20 Javascript
用客户端js实现带省略号的分页
2013/04/27 Javascript
Javascript 遍历页面text控件详解
2014/01/06 Javascript
JavaScript弹出新窗口后向父窗口输出内容的方法
2015/04/06 Javascript
JavaScript类型检测之typeof 和 instanceof 的缺陷与优化
2016/01/13 Javascript
jquery拖拽效果完整实例(附demo源码下载)
2016/01/14 Javascript
Vuejs第十一篇组件之slot内容分发实例详解
2016/09/09 Javascript
jQuery 移动端拖拽(模块化开发,触摸事件,webpack)
2016/10/28 Javascript
JavaScript设计模式之享元模式实例详解
2019/01/17 Javascript
ES10 特性的完整指南小结
2019/03/04 Javascript
详解Vue.directive 自定义指令
2019/03/27 Javascript
vue学习笔记之Vue中css动画原理简单示例
2020/02/29 Javascript
[47:06]DOTA2上海特级锦标赛主赛事日 - 4 败者组第五轮 MVP.Phx VS EG第一局
2016/03/05 DOTA
[01:48]完美圣典齐天大圣至宝宣传片
2016/12/17 DOTA
简单谈谈Python中的几种常见的数据类型
2017/02/10 Python
放弃 Python 转向 Go语言有人给出了 9 大理由
2017/10/20 Python
python中 logging的使用详解
2017/10/25 Python
详解python读取image
2019/04/03 Python
django admin.py 外键,反向查询的实例
2019/07/26 Python
Python cookie的保存与读取、SSL讲解
2020/02/17 Python
keras使用Sequence类调用大规模数据集进行训练的实现
2020/06/22 Python
Python LMDB库的使用示例
2021/02/14 Python
点菜员岗位职责范本
2014/02/14 职场文书
大学生学期自我鉴定
2014/03/19 职场文书
如何写一份好的英文求职信
2014/03/19 职场文书
教师节感谢信
2015/01/22 职场文书
《夜莺的歌声》教学反思
2016/02/22 职场文书
初中语文教学反思范文
2016/03/03 职场文书
拙作再改《我的收音机情缘》
2022/04/05 无线电
鸿蒙3.0体验感怎么样? 鸿蒙3.0系统评测向
2022/08/14 数码科技