编程 PHP

dede3.1分页文字采集过滤规则详说(图文教程)续二

Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过，下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址：
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面，是因为以上的两个页面一个有分页，而另一个没有，并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的，个别地方会显得蛇足，只为说明的方便。

目标文字部分头部代码1：

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2：

通过比较不难发现，两个文字部分的开始采集部分能确定下来为描黑部分，开头部分好说，代码如下：

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1：

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2：

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾，尽管想把第一个的结尾再往前提一点，但没法子，要考虑到全部链接的共同部分，就只好取描黑的部分了，这也给今后确定过滤规则添了点麻烦，这是后话。先把结尾部分确定了吧：

</p> 
                  </TD> 
              </TR>

dede3.1分页文字采集过滤规则详说(图文教程)续二

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

php下实现在指定目录搜索指定类型文件的函数

Oct 03 PHP

php下几个常用的去空、分组、调试数组函数

Feb 22 PHP

PHP教程预定义变量

Oct 23 PHP

让PHP COOKIE立即生效,不用刷新就可以使用

Mar 09 PHP

PHP中使用TCPDF生成PDF文档实例

Jul 01 PHP

php中出现空白页的原因及解决方法汇总

Jul 08 PHP

PHP中使用sleep函数实现定时任务实例分享

Aug 21 PHP

ThinkPHP基于PHPExcel导入Excel文件的方法

Oct 15 PHP

php将textarea数据提交到mysql出现很多空格的解决方法

Dec 19 PHP

PHP创建/删除/复制文件夹、文件

May 03 PHP

php记录搜索引擎爬行记录的实现代码

Mar 02 PHP

Laravel框架模板继承操作示例

Jun 11 PHP

dede3.1分页文字采集过滤规则详说(图文教程)

Apr 03 #PHP

dedecms模版制作使用方法

Apr 03 #PHP

经典的PHPer为什么被认为是草根？

Apr 02 #PHP

在任意字符集下正常显示网页的方法二（续）

Apr 01 #PHP

在任意字符集下正常显示网页的方法一

Apr 01 #PHP

用PHP实现的生成静态HTML速度快类库

Mar 31 #PHP

解决dede生成静态页和动态页转换的一些问题，及火车采集入库生成动态的办法

Mar 29 #PHP

You might like

不错的一篇面向对象的PHP开发模式（简写版）

2007/03/15 PHP

PHP中$_SERVER的详细参数与说明

2008/07/29 PHP

php2html php生成静态页函数

2008/12/08 PHP

在PHP中使用X-SendFile头让文件下载更快

2014/06/01 PHP

Js数组的操作push,pop,shift,unshift等方法详细介绍

2012/12/28 Javascript

JavaScript 数组详解

2013/10/10 Javascript

JavaScript中判断页面关闭、页面刷新的实现代码

2014/08/27 Javascript

JavaScript实现自动弹出窗口并自动关闭窗口的方法

2015/08/06 Javascript

九种原生js动画效果

2015/11/11 Javascript

利用javascript实现的三种图片放大镜效果实例（附源码）

2017/01/23 Javascript

js实现自定义路由

2017/02/04 Javascript

vue数据双向绑定原理解析（get & set)

2017/03/08 Javascript

Vue.js基础学习之class与样式绑定

2017/03/20 Javascript

JS实现的简单拖拽购物车功能示例【附源码下载】

2018/01/03 Javascript

JavaScript 中的 this 工作原理

2018/06/20 Javascript

angularJS实现不同视图同步刷新详解

2018/10/09 Javascript

vue使用原生js实现滚动页面跟踪导航高亮的示例代码

2018/10/25 Javascript

vue 中Virtual Dom被创建的方法

2019/04/15 Javascript

基于JS实现前端压缩上传图片的实例代码

2019/05/14 Javascript

30分钟搭建Python的Flask框架并在上面编写第一个应用

2015/03/30 Python

python实现根据ip地址反向查找主机名称的方法

2015/04/29 Python

Python实现把json格式转换成文本或sql文件

2015/07/10 Python

Numpy数据类型转换astype,dtype的方法

2018/06/09 Python

解决pandas使用read_csv()读取文件遇到的问题

2018/06/15 Python

python模糊图片过滤的方法

2018/12/14 Python

Python高级编程之继承问题详解(super与mro)

2019/11/19 Python

python算的上脚本语言吗

2020/06/22 Python

Pycharm编辑器功能之代码折叠效果的实现代码

2020/10/15 Python

CSS3之transition实现下划线的示例代码

2018/05/30 HTML / CSS

HTML5 通过Vedio标签实现视频循环播放的示例代码

2020/08/05 HTML / CSS

日本一家专门经营各种箱包的大型网站：Traveler Store

2016/08/03 全球购物

财务管理专业毕业生求职信

2014/06/02 职场文书

党委班子纠正“四风”问题整改措施

2014/10/28 职场文书

求职自荐信范文（优秀篇）

2015/03/27 职场文书

2019各种保证书范文

2019/06/24 职场文书

python中mongodb包操作数据库

2022/04/19 Python