dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
php面向对象全攻略 (十一)__toString()用法 克隆对象 __call处理调用错误
Sep 30 PHP
php中获取关键词及所属来源搜索引擎名称的代码
Feb 15 PHP
深入解析php之apc
May 15 PHP
强制PHP命令行脚本单进程运行的方法
Apr 15 PHP
jQuery+PHP+ajax实现微博加载更多内容列表功能
Jun 27 PHP
ThinkPHP中的系统常量和预定义常量集合
Jul 01 PHP
浅析ThinkPHP的模板输出功能
Jul 01 PHP
PHP框架Laravel学习心得体会
Oct 28 PHP
JSON两种结构之对象和数组的理解
Jul 19 PHP
php抛出异常与捕捉特定类型的异常详解
Oct 26 PHP
php实现的简单数据库操作Model类
Nov 16 PHP
PHP根据key删除数组中指定的元素
Feb 28 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
转PHP手册及PHP编程标准
2006/12/17 PHP
PHP中去除换行解决办法小结(PHP_EOL)
2011/11/27 PHP
微信第三方登录(原生)demo【必看篇】
2017/05/26 PHP
PHP守护进程化在C和PHP环境下的实现
2017/11/21 PHP
PHP终止脚本运行三种实现方法详解
2020/09/01 PHP
js 键盘记录实现(兼容FireFox和IE)
2010/02/07 Javascript
javascript继承之为什么要继承
2012/11/10 Javascript
jQuery对象与DOM对象之间的相互转换
2015/03/03 Javascript
Bootstrap自定义文件上传下载样式
2016/05/26 Javascript
Vue.js每天必学之表单控件绑定
2016/09/05 Javascript
Element-ui 自带的两种远程搜索(模糊查询)用法讲解
2021/01/29 Javascript
详解Vite的新体验
2021/02/22 Javascript
[01:10:27]DOTA2-DPC中国联赛正赛 SAG vs XG BO3 第二场 3月5日
2021/03/11 DOTA
深入学习Python中的装饰器使用
2016/06/20 Python
python简单验证码识别的实现方法
2019/05/10 Python
python编写softmax函数、交叉熵函数实例
2020/06/11 Python
如何对python的字典进行排序
2020/06/19 Python
Django mysqlclient安装和使用详解
2020/09/17 Python
基于Python的身份证验证识别和数据处理详解
2020/11/14 Python
python里glob模块知识点总结
2021/01/05 Python
python 30行代码实现蚂蚁森林自动偷能量
2021/02/08 Python
css3通过scale()、rotate()实现放大、旋转
2020/03/19 HTML / CSS
HTML5 canvas基本绘图之填充样式实现
2016/06/27 HTML / CSS
ALDO加拿大官网:加拿大女鞋品牌
2018/12/22 全球购物
英国时尚高尔夫服装购物网站:Trendy Golf
2020/01/10 全球购物
遗体告别仪式答谢词
2014/01/23 职场文书
说明书怎么写
2014/05/06 职场文书
答谢会策划方案
2014/05/12 职场文书
本科生导师推荐信范文
2014/05/18 职场文书
2014最新开业庆典策划方案(5篇)
2014/09/15 职场文书
2015年世界水日活动总结
2015/02/09 职场文书
推荐信范文大全
2015/03/27 职场文书
婚礼伴郎致辞
2015/07/28 职场文书
PostgreSQL将数据加载到buffer cache中操作方法
2021/04/16 PostgreSQL
Canvas如何做个雪花屏版404的实现
2021/09/25 HTML / CSS
win11高清晰音频管理器在哪里?win11找不到高清晰音频管理器解决办法
2022/04/08 数码科技