dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
PHP获取网卡地址的代码
Apr 09 PHP
php下实现一个阿拉伯数字转中文数字的函数
Jul 10 PHP
克隆一个新项目的快捷方式
Apr 10 PHP
php过滤XSS攻击的函数
Nov 12 PHP
php递归删除目录与文件的方法
Jan 30 PHP
ThinkPHP V2.2说明文档没有说明的那些事实例小结
Jul 01 PHP
PHP安全下载文件的方法
Apr 07 PHP
Yii2 如何在modules中添加验证码的方法
Jun 19 PHP
php用户名的密码加密更安全的方法
Jun 21 PHP
PHP FileSystem 文件系统常用api整理总结
Jul 12 PHP
Laravel5.5 动态切换多语言的操作方式
Oct 25 PHP
php实现文件上传基本验证
Mar 04 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
php引用地址改变变量值的问题
2012/03/23 PHP
Thinkphp整合微信支付功能
2016/12/14 PHP
php实现将二维关联数组转换成字符串的方法详解
2017/07/31 PHP
一次因composer错误使用引发的问题与解决
2019/03/06 PHP
身份证号码前六位所代表的省,市,区, 以及地区编码下载
2007/04/12 Javascript
从阿里妈妈发现的几个不错的表单验证函数
2007/09/21 Javascript
Jquery中的CheckBox、RadioButton、DropDownList的取值赋值实现代码
2011/10/12 Javascript
jQuery Jcrop插件实现图片选取功能
2011/11/23 Javascript
jQuery中bind与live的用法及区别小结
2014/01/27 Javascript
jquery制作弹窗提示窗口代码分享
2014/03/02 Javascript
JavaScript中的style.cssText使用教程
2014/11/06 Javascript
JavaScript 模块化编程(笔记)
2015/04/08 Javascript
基于Marquee.js插件实现的跑马灯效果示例
2017/01/25 Javascript
javascript 秒表计时器实现代码
2017/03/09 Javascript
Angular2使用Angular-CLI快速搭建工程(二)
2017/05/21 Javascript
vue解决使用webpack打包后keep-alive不生效的方法
2018/09/01 Javascript
微信小程序签到功能
2018/10/31 Javascript
Layui点击图片弹框预览的实现方法
2019/09/16 Javascript
解决vue的touchStart事件及click事件冲突问题
2020/07/21 Javascript
JSON 入门教程基础篇 json入门学习笔记
2020/09/22 Javascript
[03:03]2014DOTA2西雅图国际邀请赛 Alliance战队巡礼
2014/07/07 DOTA
浅谈python中的占位符
2017/11/09 Python
python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例
2019/06/17 Python
TensorFlow梯度求解tf.gradients实例
2020/02/04 Python
如何使用PyCharm将代码上传到GitHub上(图文详解)
2020/04/27 Python
为什么是 Python -m
2020/06/19 Python
Python3爬虫中Splash的知识总结
2020/07/10 Python
python 利用jieba.analyse进行 关键词提取
2020/12/17 Python
在校生党员自我评价
2013/09/25 职场文书
分公司经理岗位职责
2013/11/11 职场文书
高中生的自我鉴定范文
2014/01/24 职场文书
大学班级学风建设方案
2014/05/01 职场文书
艺术设计专业求职自荐信
2014/05/19 职场文书
学校火灾防控方案
2014/06/09 职场文书
2014幼儿教师个人工作总结
2014/12/03 职场文书
fastdfs+nginx集群搭建的实现
2021/03/31 Servers