dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
php下实现在指定目录搜索指定类型文件的函数
Oct 03 PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 PHP
PHP教程 预定义变量
Oct 23 PHP
让PHP COOKIE立即生效,不用刷新就可以使用
Mar 09 PHP
PHP中使用TCPDF生成PDF文档实例
Jul 01 PHP
php中出现空白页的原因及解决方法汇总
Jul 08 PHP
PHP中使用sleep函数实现定时任务实例分享
Aug 21 PHP
ThinkPHP基于PHPExcel导入Excel文件的方法
Oct 15 PHP
php将textarea数据提交到mysql出现很多空格的解决方法
Dec 19 PHP
PHP创建/删除/复制文件夹、文件
May 03 PHP
php记录搜索引擎爬行记录的实现代码
Mar 02 PHP
Laravel框架模板继承操作示例
Jun 11 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
不错的一篇面向对象的PHP开发模式(简写版)
2007/03/15 PHP
PHP中$_SERVER的详细参数与说明
2008/07/29 PHP
php2html php生成静态页函数
2008/12/08 PHP
在PHP中使用X-SendFile头让文件下载更快
2014/06/01 PHP
Js数组的操作push,pop,shift,unshift等方法详细介绍
2012/12/28 Javascript
JavaScript 数组详解
2013/10/10 Javascript
JavaScript中判断页面关闭、页面刷新的实现代码
2014/08/27 Javascript
JavaScript实现自动弹出窗口并自动关闭窗口的方法
2015/08/06 Javascript
九种原生js动画效果
2015/11/11 Javascript
利用javascript实现的三种图片放大镜效果实例(附源码)
2017/01/23 Javascript
js实现自定义路由
2017/02/04 Javascript
vue数据双向绑定原理解析(get &amp; set)
2017/03/08 Javascript
Vue.js基础学习之class与样式绑定
2017/03/20 Javascript
JS实现的简单拖拽购物车功能示例【附源码下载】
2018/01/03 Javascript
JavaScript 中的 this 工作原理
2018/06/20 Javascript
angularJS实现不同视图同步刷新详解
2018/10/09 Javascript
vue使用原生js实现滚动页面跟踪导航高亮的示例代码
2018/10/25 Javascript
vue 中Virtual Dom被创建的方法
2019/04/15 Javascript
基于JS实现前端压缩上传图片的实例代码
2019/05/14 Javascript
30分钟搭建Python的Flask框架并在上面编写第一个应用
2015/03/30 Python
python实现根据ip地址反向查找主机名称的方法
2015/04/29 Python
Python实现把json格式转换成文本或sql文件
2015/07/10 Python
Numpy数据类型转换astype,dtype的方法
2018/06/09 Python
解决pandas使用read_csv()读取文件遇到的问题
2018/06/15 Python
python模糊图片过滤的方法
2018/12/14 Python
Python高级编程之继承问题详解(super与mro)
2019/11/19 Python
python算的上脚本语言吗
2020/06/22 Python
Pycharm编辑器功能之代码折叠效果的实现代码
2020/10/15 Python
CSS3之transition实现下划线的示例代码
2018/05/30 HTML / CSS
HTML5 通过Vedio标签实现视频循环播放的示例代码
2020/08/05 HTML / CSS
日本一家专门经营各种箱包的大型网站:Traveler Store
2016/08/03 全球购物
财务管理专业毕业生求职信
2014/06/02 职场文书
党委班子纠正“四风”问题整改措施
2014/10/28 职场文书
求职自荐信范文(优秀篇)
2015/03/27 职场文书
2019各种保证书范文
2019/06/24 职场文书
python中mongodb包操作数据库
2022/04/19 Python