dede3.1分页文字采集过滤规则详说(图文教程)续四


Posted in PHP onApril 03, 2007

至此,分页内容匹配进行完毕。 

文章内容匹配、分页内容匹配都进行完后,最后就只有“过滤”了,包括分页区域过滤和文章内容过滤。据本人的感觉,上面的两个规则都好写,只要找到全部链接中的“唯一性”代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙……哈哈,感觉就是这样。尤其如我一般的新手,对“正则”这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了。 

好了,闲话了。也累了,听听《加州旅馆》吧,在这:加州旅馆_老鹰乐队94现场 放松下吧。

你一眼看出来了过滤规则怎么写么,反正我是没能看得出来,没办法,新手就是新手呀。不管它,那就依照原范例的分页过滤规则写个规则试试看看结果吧:

{dede:trim}<td align='center' height='30'>(.*)页次{/dede:trim}

采集一下:

dede3.1分页文字采集过滤规则详说(图文教程)续四
分页成功了,但废码多,还得改!
看下多余的代码特征,好象是过滤范围不够,后面的很多内容都要过滤掉。那好,把过滤区域再往后移,直接移至描红部分吧(其实我在改过滤规则的时候,改了好几次,这里就一次到位吧,不耽误朋友们的时间了):

dede3.1分页文字采集过滤规则详说(图文教程)续四
写个完整的分页过滤规则:
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim} 

再采集下,看看结果:

dede3.1分页文字采集过滤规则详说(图文教程)续四

好了,分页成功,无多余代码。至此,全部主要的代码部分完成。
结果在这里:
有分页的:党员干部作风整顿剖析材料
无分页的: 文艺部工作计划
写一个完成的站点规则:

{!-- 节点基本信息 --} {dede:item name='天水_工作计划_1页' 
    imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'} 
{/dede:item} 
{!-- 采集列表获取规则 --} 
{dede:list source='var' sourcetype='list'  
          varstart='' varend=''} 
  {dede:url value='http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}     
  {dede:need}Gzjh/2007-{/dede:need} 
  {dede:cannot}Gzjh/2007-1{/dede:cannot} 
  {dede:linkarea}[var:区域]{/dede:linkarea} 
{/dede:list} 
{!-- 网页内容获取规则 --} 
{dede:art} 
{dede:sppage sptype='full'}<td align='center' height='30'>首页 上页[var:分页区域]页次{/dede:sppage} 
  {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题'  
  isunit='' isdown=''} 
    {dede:match}<title>[var:内容]--天水搜索</title>{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = @litpic;{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}if(@me!="") @me = GetMkTime(@me); 
else @me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容'  
  isunit='1' isdown='1'} 
    {dede:match}</TR> 
              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>[var:内容]</p> 
                  </TD> 
              </TR>{/dede:match} 
        {dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim} 
    {dede:trim} 
{/dede:trim} 
    {dede:trim}<param([^>]*)>{/dede:trim} 
    {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} 
    {dede:trim}<embed([^>]*)>{/dede:trim} 
    {dede:trim}</embed>{/dede:trim} 
    {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} 
    {dede:trim}<object([^>]*)>{/dede:trim} 
    {dede:trim}</object>{/dede:trim} 
    {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} 
    {dede:trim}<OBJECT([^>]*)>{/dede:trim} 
    {dede:trim}</OBJECT>{/dede:trim} 
    {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} 
    {dede:trim}<iframe([^>]*)>{/dede:trim} 
    {dede:trim}</iframe>{/dede:trim} 
    {dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} 
    {dede:trim}<IFRAME([^>]*)>{/dede:trim} 
    {dede:trim}</IFRAME>{/dede:trim} 
    {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} 
    {dede:trim}<font([^>]*)>{/dede:trim} 
    {dede:trim}</font>{/dede:trim} 
    {dede:trim}<img([^>]*)>{/dede:trim} 
    {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} 
    {dede:trim}<a([^>]*)>{/dede:trim} 
    {dede:trim}</a>{/dede:trim} 
    {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} 
    {dede:trim}<td([^>]*)>{/dede:trim} 
    {dede:trim}</td>{/dede:trim} 
    {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} 
    {dede:trim}<tr([^>]*)>{/dede:trim} 
    {dede:trim}</tr>{/dede:trim} 
    {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} 
    {dede:trim}<tbody>{/dede:trim} 
    {dede:trim}</tbody>{/dede:trim} 
    {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} 
    {dede:trim}<table([^>]*)>{/dede:trim} 
    {dede:trim}</table>{/dede:trim} 
    {dede:trim} {/dede:trim} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me ='互联网'{/dede:function} 
  {/dede:note} 
{/dede:art}
PHP 相关文章推荐
php empty,isset,is_null判断比较(差异与异同)
Oct 19 PHP
CI框架Session.php源码分析
Nov 03 PHP
PHP中使用循环实现的金字塔图形
Nov 08 PHP
Yii中Model(模型)的创建及使用方法
Dec 28 PHP
PHP封装的MSSql操作类完整实例
May 26 PHP
PHP yii实现model添加默认值的方法(两种方法)
Nov 10 PHP
PHP实现添加购物车功能
Mar 06 PHP
PHP中快速生成随机密码的几种方式
Apr 17 PHP
Win7环境下Apache连接MySQL提示连接已重置的解决办法
May 09 PHP
详解PHP处理字符串类似indexof的方法函数
Jun 11 PHP
php数据序列化测试实例详解
Aug 12 PHP
WordPress免插件实现面包屑导航的示例代码
Aug 20 PHP
dede3.1分页文字采集过滤规则详说(图文教程)续二
Apr 03 #PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
You might like
smarty巧妙处理iframe中内容页的代码
2012/03/07 PHP
Gird组件 Part-3:范例RSSFeed Viewer
2007/03/10 Javascript
基于逻辑运算的简单权限系统(实现) JS 版
2007/03/24 Javascript
jQuery使用post方法提交数据实例
2015/03/25 Javascript
JavaScript中用toString()方法返回时间为字符串
2015/06/12 Javascript
vue proxyTable 接口跨域请求调试的示例
2017/09/12 Javascript
详解Vue中组件的缓存
2019/04/20 Javascript
解决Vue打包后访问图片/图标不显示的问题
2019/07/25 Javascript
iview form清除校验状态的实现
2019/09/19 Javascript
jQuery擦除插件eraser使用方法详解
2020/01/11 jQuery
全网小程序接口请求封装实例代码
2020/11/06 Javascript
浅谈Vue使用Elementui修改默认的最快方法
2020/12/05 Vue.js
[27:02]2014 DOTA2国际邀请赛中国区预选赛 5 23 CIS VS LGD第三场
2014/05/24 DOTA
[44:43]完美世界DOTA2联赛决赛日 FTD vs GXR 第一场 11.08
2020/11/11 DOTA
[01:06:19]DOTA2-DPC中国联赛定级赛 LBZS vs SAG BO3第二场 1月8日
2021/03/11 DOTA
Python格式化css文件的方法
2015/03/10 Python
在Python中使用HTML模版的教程
2015/04/29 Python
python制作爬虫并将抓取结果保存到excel中
2016/04/06 Python
python 编码规范整理
2018/05/05 Python
Python实现获取系统临时目录及临时文件的方法示例
2019/06/26 Python
pytorch神经网络之卷积层与全连接层参数的设置方法
2019/08/18 Python
Python实现报警信息实时发送至邮箱功能(实例代码)
2019/11/11 Python
如何将你的应用迁移到Python3的三个步骤
2019/12/22 Python
Python 通过爬虫实现GitHub网页的模拟登录的示例代码
2020/08/17 Python
CSS3控制HTML元素动画效果
2014/02/08 HTML / CSS
HTML5 本地存储和内容按需加载的思路和方法
2011/04/07 HTML / CSS
西班牙最好的在线购买葡萄酒的商店:Vinoseleccion
2019/10/30 全球购物
会计电算化专业自荐信
2014/03/15 职场文书
解除劳动关系协议书2篇
2014/11/28 职场文书
2015年简历自我评价范文
2015/03/11 职场文书
2015年全国保险公众宣传日活动方案
2015/05/06 职场文书
python glom模块的使用简介
2021/04/13 Python
IDEA 链接Mysql数据库并执行查询操作的完整代码
2021/05/20 MySQL
详解python字符串驻留技术
2021/05/21 Python
JavaScript 中for/of,for/in 的详细介绍
2021/11/17 Javascript
vue项目支付功能代码详解
2022/02/18 Vue.js