dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
PHP4(windows版本)中的COM函数
Oct 09 PHP
使用zend studio for eclipse不能激活代码提示功能的解决办法
Oct 11 PHP
php读取xml实例代码
Jan 28 PHP
php xml 入门学习资料
Jan 01 PHP
php设计模式 FlyWeight (享元模式)
Jun 26 PHP
php自定义函数截取汉字长度
May 15 PHP
详解Window7 下开发php扩展
Dec 31 PHP
php实现用户注册密码的crypt加密
Jun 08 PHP
如何修改yii2.0自带的user表为其它的表
Aug 01 PHP
PHP实现找出有序数组中绝对值最小的数算法分析
Aug 07 PHP
php+js实现的无刷新下载文件功能示例
Aug 23 PHP
使用git迁移Laravel项目至新开发环境的步骤详解
Apr 06 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
example2.php
2006/10/09 PHP
PHP连接access数据库
2008/03/27 PHP
MySql 按时间段查询数据方法(实例说明)
2008/11/02 PHP
PHP 数据库树的遍历方法
2009/02/06 PHP
php FPDF类库应用实现代码
2009/03/20 PHP
php读取文件内容到数组的方法
2015/03/16 PHP
PHP版本如何选择?应该使用哪个版本?
2015/05/13 PHP
修复ShopNC使用QQ 互联时提示100010 错误
2015/11/08 PHP
Django 中 cookie的使用
2017/08/17 PHP
php文件上传原理与实现方法详解
2019/12/20 PHP
简单的前端js+ajax 购物车框架(入门篇)
2011/10/29 Javascript
js同比例缩放图片的小例子
2013/10/30 Javascript
获取非最后一列td值并将title设为该值的方法
2013/10/30 Javascript
Nodejs实现多人同时在线移动鼠标的小游戏分享
2014/12/06 NodeJs
jQuery寻找n以内完全数的方法
2015/06/24 Javascript
纯CSS3代码实现滑动开关效果
2015/08/19 Javascript
Web Uploader文件上传插件使用详解
2016/05/10 Javascript
微信公众号开发 自定义菜单跳转页面并获取用户信息实例详解
2016/12/08 Javascript
理解javascript中的Function.prototype.bind的方法
2017/02/03 Javascript
Vue.js render方法使用详解
2017/04/05 Javascript
使用JS获取SessionStorage的值
2018/01/12 Javascript
网页爬虫之cookie自动获取及过期自动更新的实现方法
2018/03/06 Javascript
解决vue中修改了数据但视图无法更新的情况
2018/08/27 Javascript
Python 除法小技巧
2008/09/06 Python
在python3.5中使用OpenCV的实例讲解
2018/04/02 Python
python遍历文件夹,指定遍历深度与忽略目录的方法
2018/07/11 Python
python 实现批量替换文本中的某部分内容
2019/12/13 Python
python+selenium+PhantomJS抓取网页动态加载内容
2020/02/25 Python
Weblogic和WebSphere不同特点
2012/05/09 面试题
企业管理部经理岗位职责
2013/12/24 职场文书
社区活动总结
2015/02/04 职场文书
小兵张嘎电影观后感
2015/06/03 职场文书
心理健康教育培训研修感言
2015/11/18 职场文书
详解缓存穿透击穿雪崩解决方案
2021/05/28 Redis
Pycharm连接远程服务器并远程调试的全过程
2021/06/24 Python
Redis基本数据类型哈希Hash常用操作命令
2022/06/01 Redis