dede3.1分页文字采集过滤规则详说(图文教程)续四


Posted in PHP onApril 03, 2007

至此,分页内容匹配进行完毕。 

文章内容匹配、分页内容匹配都进行完后,最后就只有“过滤”了,包括分页区域过滤和文章内容过滤。据本人的感觉,上面的两个规则都好写,只要找到全部链接中的“唯一性”代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙……哈哈,感觉就是这样。尤其如我一般的新手,对“正则”这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了。 

好了,闲话了。也累了,听听《加州旅馆》吧,在这:加州旅馆_老鹰乐队94现场 放松下吧。

你一眼看出来了过滤规则怎么写么,反正我是没能看得出来,没办法,新手就是新手呀。不管它,那就依照原范例的分页过滤规则写个规则试试看看结果吧:

{dede:trim}<td align='center' height='30'>(.*)页次{/dede:trim}

采集一下:

dede3.1分页文字采集过滤规则详说(图文教程)续四
分页成功了,但废码多,还得改!
看下多余的代码特征,好象是过滤范围不够,后面的很多内容都要过滤掉。那好,把过滤区域再往后移,直接移至描红部分吧(其实我在改过滤规则的时候,改了好几次,这里就一次到位吧,不耽误朋友们的时间了):

dede3.1分页文字采集过滤规则详说(图文教程)续四
写个完整的分页过滤规则:
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim} 

再采集下,看看结果:

dede3.1分页文字采集过滤规则详说(图文教程)续四

好了,分页成功,无多余代码。至此,全部主要的代码部分完成。
结果在这里:
有分页的:党员干部作风整顿剖析材料
无分页的: 文艺部工作计划
写一个完成的站点规则:

{!-- 节点基本信息 --} {dede:item name='天水_工作计划_1页' 
    imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'} 
{/dede:item} 
{!-- 采集列表获取规则 --} 
{dede:list source='var' sourcetype='list'  
          varstart='' varend=''} 
  {dede:url value='http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}     
  {dede:need}Gzjh/2007-{/dede:need} 
  {dede:cannot}Gzjh/2007-1{/dede:cannot} 
  {dede:linkarea}[var:区域]{/dede:linkarea} 
{/dede:list} 
{!-- 网页内容获取规则 --} 
{dede:art} 
{dede:sppage sptype='full'}<td align='center' height='30'>首页 上页[var:分页区域]页次{/dede:sppage} 
  {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题'  
  isunit='' isdown=''} 
    {dede:match}<title>[var:内容]--天水搜索</title>{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = @litpic;{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}if(@me!="") @me = GetMkTime(@me); 
else @me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容'  
  isunit='1' isdown='1'} 
    {dede:match}</TR> 
              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>[var:内容]</p> 
                  </TD> 
              </TR>{/dede:match} 
        {dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim} 
    {dede:trim} 
{/dede:trim} 
    {dede:trim}<param([^>]*)>{/dede:trim} 
    {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} 
    {dede:trim}<embed([^>]*)>{/dede:trim} 
    {dede:trim}</embed>{/dede:trim} 
    {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} 
    {dede:trim}<object([^>]*)>{/dede:trim} 
    {dede:trim}</object>{/dede:trim} 
    {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} 
    {dede:trim}<OBJECT([^>]*)>{/dede:trim} 
    {dede:trim}</OBJECT>{/dede:trim} 
    {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} 
    {dede:trim}<iframe([^>]*)>{/dede:trim} 
    {dede:trim}</iframe>{/dede:trim} 
    {dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} 
    {dede:trim}<IFRAME([^>]*)>{/dede:trim} 
    {dede:trim}</IFRAME>{/dede:trim} 
    {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} 
    {dede:trim}<font([^>]*)>{/dede:trim} 
    {dede:trim}</font>{/dede:trim} 
    {dede:trim}<img([^>]*)>{/dede:trim} 
    {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} 
    {dede:trim}<a([^>]*)>{/dede:trim} 
    {dede:trim}</a>{/dede:trim} 
    {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} 
    {dede:trim}<td([^>]*)>{/dede:trim} 
    {dede:trim}</td>{/dede:trim} 
    {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} 
    {dede:trim}<tr([^>]*)>{/dede:trim} 
    {dede:trim}</tr>{/dede:trim} 
    {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} 
    {dede:trim}<tbody>{/dede:trim} 
    {dede:trim}</tbody>{/dede:trim} 
    {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} 
    {dede:trim}<table([^>]*)>{/dede:trim} 
    {dede:trim}</table>{/dede:trim} 
    {dede:trim} {/dede:trim} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me ='互联网'{/dede:function} 
  {/dede:note} 
{/dede:art}
PHP 相关文章推荐
我的论坛源代码(十)
Oct 09 PHP
PHP5中虚函数的实现方法分享
Apr 20 PHP
php图片加水印原理(超简单的实例代码)
Jan 18 PHP
解析PHP计算页面执行时间的实现代码
Jun 18 PHP
php获得用户ip地址的比较不错的方法
Feb 08 PHP
php实现复制移动文件的方法
Jul 29 PHP
PHP保存session到memcache服务器的方法
Jan 19 PHP
实例讲解如何在PHP的Yii框架中进行错误和异常处理
Mar 17 PHP
PHP页面跳转实现延时跳转的方法
Dec 10 PHP
Laravel接收前端ajax传来的数据的实例代码
Jul 20 PHP
弹出模态框modal的实现方法及实例
Sep 19 PHP
Thinkphp 3.2框架使用Redis的方法详解
Oct 24 PHP
dede3.1分页文字采集过滤规则详说(图文教程)续二
Apr 03 #PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
You might like
php二维数组排序方法(array_multisort usort)
2013/12/25 PHP
php制作的简单验证码识别代码
2016/01/26 PHP
PHP 应用容器化以及部署方法
2018/02/12 PHP
PHP基于面向对象实现的留言本功能实例
2018/04/04 PHP
javascript URL编码和解码使用说明
2010/04/12 Javascript
JS控制图片翻转示例代码(兼容firefox,ie,chrome)
2013/12/19 Javascript
js图片延迟技术一般的思路与示例
2014/03/20 Javascript
javascript基于DOM实现权限选择实例分析
2015/05/14 Javascript
Javascript中的getUTCDay()方法使用详解
2015/06/10 Javascript
jQuery form插件的使用之处理server返回的JSON, XML,HTML数据
2016/01/26 Javascript
全国省市二级联动下拉菜单 js版
2016/05/10 Javascript
jquery点击切换背景色的简单实例
2016/08/25 Javascript
微信小程序 chooseImage选择图片或者拍照
2017/04/07 Javascript
AngularJs 最新验证手机号码的实例,成功测试通过
2017/11/26 Javascript
vue router动态路由下让每个子路由都是独立组件的解决方案
2018/04/24 Javascript
js中事件对象和事件委托的介绍
2019/01/21 Javascript
Js通过AES加密后PHP用Openssl解密的方法
2019/07/12 Javascript
vue实现配置全局访问路径头(axios)
2019/11/01 Javascript
Python中easy_install 和 pip 的安装及使用
2017/06/05 Python
Python回文字符串及回文数字判定功能示例
2018/03/20 Python
python cs架构实现简单文件传输
2020/03/20 Python
Python调用.NET库的方法步骤
2019/12/27 Python
golang/python实现归并排序实例代码
2020/08/30 Python
Python使用Selenium模拟浏览器自动操作功能
2020/09/08 Python
python3定位并识别图片验证码实现自动登录功能
2021/01/29 Python
Html5实现移动端、PC端 刮刮卡效果
2016/06/30 HTML / CSS
瑞士网球商店:Tennis-Point
2020/03/12 全球购物
秘书英文求职信
2014/04/16 职场文书
学雷锋月活动总结
2014/04/25 职场文书
小学运动会口号
2014/06/07 职场文书
关于读书的演讲稿1000字
2014/08/27 职场文书
局机关干部群众路线个人对照检查材料思想汇报
2014/10/05 职场文书
基石观后感
2015/06/12 职场文书
2016大学生就业指导课心得体会
2016/01/15 职场文书
小学英语课教学反思
2016/02/15 职场文书
pd.DataFrame中的几种索引变换的实现
2022/06/16 Python