dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
多数据表共用一个页的新闻发布
Oct 09 PHP
用cookies来跟踪识别用户
Oct 09 PHP
PHP表单递交控件名称含有点号(.)会被转化为下划线(_)的处理方法
Jan 06 PHP
关于PHP实现异步操作的研究
Feb 03 PHP
PHP内核探索:变量存储与类型使用说明
Jan 30 PHP
php的webservice的wsdl的XML无法显示问题的解决方法
Mar 11 PHP
php获取服务器端mac和客户端mac的地址支持WIN/LINUX
May 15 PHP
php查看当前Session的ID实例
Mar 16 PHP
PHP+Ajax实现无刷新分页实例详解(附demo源码下载)
Apr 07 PHP
php实现跨域提交form表单的方法【2种方法】
Oct 17 PHP
PHP-FPM 的管理和配置详解
Feb 17 PHP
laravel 框架执行流程与原理简单分析
Feb 01 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
php设计模式 Chain Of Responsibility (职责链模式)
2011/06/26 PHP
phpword插件导出word文件时中文乱码问题处理方案
2014/08/19 PHP
PHP实现的QQ空间g_tk加密算法
2015/07/09 PHP
通过修改Laravel Auth使用salt和password进行认证用户详解
2017/08/17 PHP
PHP调用接口用post方法传送json数据的实例
2018/05/31 PHP
PHP PDOStatement::errorCode讲解
2019/01/31 PHP
实例介绍PHP中zip_open()函数用法
2019/02/15 PHP
php输出文字乱码的解决方法
2019/10/04 PHP
JS对外部文件的加载及对IFRMAME的加载的实现,当加载完成后,指定指向方法(方法回调)
2011/07/04 Javascript
在JavaScript并非所有的一切都是对象
2013/04/11 Javascript
jQuery跨域问题解决方案
2015/08/03 Javascript
AngularJS中$interval的用法详解
2016/02/02 Javascript
javascript操作cookie
2017/01/17 Javascript
深入理解js中的加载事件
2017/02/08 Javascript
bootstrap轮播图示例代码分享
2017/05/17 Javascript
JS非空验证及邮箱验证的实例
2017/08/11 Javascript
React-Native中禁用Navigator手势返回的示例代码
2017/09/09 Javascript
vue中keep-alive的用法及问题描述
2018/05/15 Javascript
微信运维交互机器人的示例代码
2018/11/12 Javascript
Vue项目安装插件并保存
2019/01/28 Javascript
js实现无缝滚动双图切换效果
2019/07/09 Javascript
jquery绑定事件 bind和on的用法与区别分析
2020/05/22 jQuery
Vue实现点击导航栏当前标签后变色功能
2020/08/19 Javascript
Python中for循环详解
2014/01/17 Python
Python实例一个类背后发生了什么
2016/02/09 Python
Python中列表、字典、元组数据结构的简单学习笔记
2016/03/20 Python
python获取本机所有IP地址的方法
2018/12/26 Python
python实现文本进度条 程序进度条 加载进度条 单行刷新功能
2019/07/03 Python
Pytorch 抽取vgg各层并进行定制化处理的方法
2019/08/20 Python
HTML5 Canvas像素处理使用接口介绍
2012/12/02 HTML / CSS
莱德杯高尔夫欧洲官方商店:Ryder Cup Shop
2019/08/14 全球购物
Oral-B荷兰:牙医最推荐的品牌
2020/02/25 全球购物
心理咨询承诺书
2014/05/20 职场文书
一年级语文上册复习计划
2015/01/17 职场文书
2015年三八妇女节活动总结
2015/02/06 职场文书
python3实现常见的排序算法(示例代码)
2021/07/04 Python