dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
PHP编程最快明白(第一讲 软件环境和准备工作)
Oct 25 PHP
PHP中用正则表达式清除字符串的空白
Jan 17 PHP
Can't create/write to file 'C:\WINDOWS\TEMP\...MYSQL报错解决方法
Jun 30 PHP
PHP语言中global和$GLOBALS[]的分析 之二
Feb 02 PHP
php检查字符串中是否有外链的方法
Jul 29 PHP
浅析php-fpm静态和动态执行方式的比较
Nov 09 PHP
Zend Framework处理Json数据方法详解
Dec 09 PHP
PHP实现的简单AES加密解密算法实例
May 29 PHP
Laravel 5.5 的自定义验证对象/类示例代码详解
Aug 29 PHP
一文掌握PHP Xdebug 本地与远程调试(小结)
Apr 23 PHP
浅谈laravel-admin form中的数据,在提交后,保存前,获取并进行编辑
Oct 21 PHP
php实现记事本案例
Oct 20 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
PHP 图片水印类代码
2012/08/27 PHP
PHP使用正则表达式清除超链接文本
2013/11/12 PHP
PHP COOKIE及时生效的方法介绍
2014/02/14 PHP
php unicode编码和字符串互转的方法
2020/08/12 PHP
PHP5.6新增加的可变函数参数用法分析
2017/08/25 PHP
PHP迭代与递归实现无限级分类
2017/08/28 PHP
Swoole4.4协程抢占式调度器详解
2019/05/23 PHP
php实现的支付宝网页支付功能示例【基于TP5框架】
2019/09/16 PHP
PHP+Mysql分布式事务与解决方案深入理解
2021/02/27 PHP
JavaScript 中的replace方法说明
2007/04/13 Javascript
jQuery EasyUI API 中文文档 可调整尺寸
2011/09/29 Javascript
JavaScript 垃圾回收机制分析
2013/10/10 Javascript
JavaScript的setAttribute兼容性问题解决方法
2013/11/11 Javascript
JS和Jquery获取和修改label的值的示例代码
2014/01/15 Javascript
javascript实现日期格式转换
2014/12/16 Javascript
深入理解Angular2 模板语法
2016/08/07 Javascript
node中modules.exports与exports导出的区别
2018/06/08 Javascript
Vue与Node.js通过socket.io通信的示例代码
2018/07/25 Javascript
JavaScript函数IIFE使用详解
2019/10/21 Javascript
vue和小程序项目中使用iconfont的方法
2020/05/19 Javascript
node.js +mongdb实现登录功能
2020/06/18 Javascript
[03:42]2018完美盛典-《加冕》
2018/12/16 DOTA
浅谈Python 字符串格式化输出(format/printf)
2016/07/21 Python
Python中fnmatch模块的使用详情
2018/11/30 Python
python网络应用开发知识点浅析
2019/05/28 Python
菲律宾票务网站:StubHub菲律宾
2018/04/21 全球购物
建龙钢铁面试总结
2014/04/15 面试题
会计电算化专业毕业生求职信范文
2013/12/10 职场文书
网上快餐厅创业计划书
2014/02/01 职场文书
公司授权委托书范文
2014/08/02 职场文书
邹越感恩父母演讲稿
2014/08/28 职场文书
2015元旦晚会主持词(开场白+结束语)
2014/12/14 职场文书
欠款起诉书范文
2015/05/19 职场文书
工作感想范文
2015/08/07 职场文书
创业计划书之健康营养产业
2019/10/15 职场文书
Python 处理表格进行成绩排序的操作代码
2021/07/26 Python