dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
用header 发送cookie的php代码
Mar 16 PHP
php面向对象全攻略 (五) 封装性
Sep 30 PHP
PHP strtok()函数的优点分析
Mar 02 PHP
解析获取优酷视频真实下载地址的PHP源代码
Jun 26 PHP
ThinkPHP使用心得分享-分页类Page的用法
May 15 PHP
codeigniter中view通过循环显示数组数据的方法
Mar 20 PHP
PHP递归调用数组值并用其执行指定函数的方法
Apr 01 PHP
php遍历类中包含的所有元素的方法
May 12 PHP
CI框架出现mysql数据库连接资源无法释放的解决方法
May 17 PHP
js基于qrcode.js生成二维码的方法【附demo插件源码下载】
Dec 28 PHP
php文件操作之文件写入字符串、数组的方法分析
Apr 15 PHP
Laravel如何实现适合Api的异常处理响应格式
Jun 14 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
frename PHP 灵活文件命名函数 frename
2009/09/09 PHP
php带密码功能并下载远程文件保存本地指定目录 修改加强版
2010/05/16 PHP
Yii入门教程之目录结构、入口文件及路由设置
2014/11/25 PHP
PHP处理数组和XML之间的互相转换
2016/06/02 PHP
针对多用户实现头像上传功能PHP代码 适用于登陆页面制作
2016/08/17 PHP
PHP实现微信提现功能
2018/09/30 PHP
Yii框架操作cookie与session的方法实例详解
2019/09/04 PHP
extjs中form与grid交互数据(record)的方法
2013/08/29 Javascript
javascript单页面手势滑屏切换原理详解
2016/03/21 Javascript
深入理解关于javascript中apply()和call()方法的区别
2016/04/12 Javascript
使用jQuery中的wrap()函数操作HTML元素的教程
2016/05/24 Javascript
JS字符串长度判断,超出进行自动截取的实例(支持中文)
2017/03/06 Javascript
Angular.JS通过指令操作DOM的方法
2017/05/10 Javascript
JavaScript编写棋盘覆盖代码详解
2017/08/28 Javascript
vue写一个组件
2018/04/09 Javascript
Vue组件全局注册实现警告框的实例详解
2018/06/11 Javascript
iview tabs 顶部导航栏和模块切换栏的示例代码
2019/03/04 Javascript
微信小程序wepy框架学习和使用心得详解
2019/05/24 Javascript
小程序封装路由文件和路由方法(5种全解析)
2019/05/26 Javascript
微信小程序实现折线图的示例代码
2019/06/07 Javascript
为vue项目自动设置请求状态的配置方法
2019/06/09 Javascript
layui的select联动实现代码
2019/09/28 Javascript
python用来获得图片exif信息的库实例分析
2015/03/16 Python
Python基于pygame实现的font游戏字体(附源码)
2015/11/11 Python
python 获得任意路径下的文件及其根目录的方法
2019/02/16 Python
Python爬虫实现“盗取”微信好友信息的方法分析
2019/09/16 Python
如何在windows下安装Pycham2020软件(方法步骤详解)
2020/05/03 Python
详解用 python-docx 创建浮动图片
2021/01/24 Python
英国最大的宠物商店:Pets at Home
2019/04/17 全球购物
英国老牌潮鞋店:Offspring
2019/08/19 全球购物
Linux上比较文件的命令都有哪些
2013/09/28 面试题
绩效工资分配方案
2014/01/18 职场文书
采购部部长岗位职责
2014/02/06 职场文书
商场促销活动策划方案
2014/08/18 职场文书
2015年药房工作总结
2015/04/25 职场文书
2016创先争优活动党员公开承诺书
2016/03/24 职场文书