dede3.1分页文字采集过滤规则详说(图文教程)续二


Posted in PHP onApril 03, 2007

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

</p> 
                  </TD> 
              </TR>

PHP 相关文章推荐
PHP注释实例技巧
Oct 03 PHP
PHP中调用ASP.NET的WebService的代码
Apr 22 PHP
PHP sprintf()函数用例解析
May 18 PHP
PHP中使用crypt()实现用户身份验证的代码
Sep 05 PHP
web站点获取用户IP的安全方法 HTTP_X_FORWARDED_FOR检验
Jun 01 PHP
PHP中source #N问题的解决方法
Jan 27 PHP
php获取域名的google收录示例
Mar 24 PHP
PHP使用Redis替代文件存储Session的方法
Feb 15 PHP
PHP使用PHPExcel实现批量上传到数据库的方法
Jun 08 PHP
PHP共享内存使用与信号控制实例分析
May 09 PHP
PHP函数积累总结
Mar 19 PHP
Laravel获取所有的数据库表及结构的方法
Oct 10 PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
You might like
虹吸壶煮咖啡26个注意事项
2021/03/03 冲泡冲煮
PHP Global变量定义当前页面的全局变量实现探讨
2013/06/05 PHP
用PHP代替JS玩转DOM的思路及示例代码
2014/06/15 PHP
smarty内置函数{loteral}、{ldelim}和{rdelim}用法实例
2015/01/22 PHP
thinkphp3.x中session方法的用法分析
2016/05/20 PHP
让网页跳转到指定位置的jquery代码非书签
2013/09/06 Javascript
javascript获取web应用根目录的方法
2014/02/12 Javascript
JS 弹出层 定位至屏幕居中示例
2014/05/21 Javascript
jQuery的css()方法用法实例
2014/12/24 Javascript
Javascript 多物体运动的实现
2014/12/24 Javascript
JavaScript通过字符串调用函数的实现方法
2015/03/18 Javascript
javascript实现动态改变层大小的方法
2015/05/14 Javascript
jQuery EasyUI Tab 选项卡问题小结
2016/08/16 Javascript
AngularJS 与百度地图的结合实例
2016/10/20 Javascript
vue2.0 兄弟组件(平级)通讯的实现代码
2018/01/15 Javascript
js canvas实现红包照片效果
2018/08/21 Javascript
解决layui追加或者动态修改的表单元素“没效果”的问题
2019/09/18 Javascript
layui 监听select选择 获取当前select的ID名称方法
2019/09/24 Javascript
VUE兄弟组件传值操作实例分析
2019/10/26 Javascript
Vue.directive 实现元素scroll逻辑复用
2019/11/29 Javascript
浅谈vuex为什么不建议在action中修改state
2020/02/02 Javascript
JavaScript实现与web通信的方法详解
2020/08/07 Javascript
Python实现查询某个目录下修改时间最新的文件示例
2018/08/29 Python
python调用并链接MATLAB脚本详解
2019/07/05 Python
python创建子类的方法分析
2019/11/28 Python
日本非常有名的内衣丝袜品牌:GUNZE
2017/01/06 全球购物
Soft Cotton捷克:来自爱琴海棉花的浴袍
2017/02/01 全球购物
一名老师的自我评价
2014/02/07 职场文书
知名企业招聘广告词大全
2014/03/18 职场文书
社会稳定风险评估方案
2014/06/02 职场文书
一份关于丢失公司财物的检讨书
2014/09/19 职场文书
上班时间打瞌睡检讨书
2014/09/26 职场文书
优秀班主任申报材料
2014/12/16 职场文书
2014年信息技术工作总结
2014/12/16 职场文书
python微信智能AI机器人实现多种支付方式
2022/04/12 Python
Python 避免字典和元组的多重嵌套问题
2022/07/15 Python