dede3.1分页文字采集过滤规则详说(图文教程)续四


Posted in PHP onApril 03, 2007

至此,分页内容匹配进行完毕。 

文章内容匹配、分页内容匹配都进行完后,最后就只有“过滤”了,包括分页区域过滤和文章内容过滤。据本人的感觉,上面的两个规则都好写,只要找到全部链接中的“唯一性”代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙……哈哈,感觉就是这样。尤其如我一般的新手,对“正则”这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了。 

好了,闲话了。也累了,听听《加州旅馆》吧,在这:加州旅馆_老鹰乐队94现场 放松下吧。

你一眼看出来了过滤规则怎么写么,反正我是没能看得出来,没办法,新手就是新手呀。不管它,那就依照原范例的分页过滤规则写个规则试试看看结果吧:

{dede:trim}<td align='center' height='30'>(.*)页次{/dede:trim}

采集一下:

dede3.1分页文字采集过滤规则详说(图文教程)续四
分页成功了,但废码多,还得改!
看下多余的代码特征,好象是过滤范围不够,后面的很多内容都要过滤掉。那好,把过滤区域再往后移,直接移至描红部分吧(其实我在改过滤规则的时候,改了好几次,这里就一次到位吧,不耽误朋友们的时间了):

dede3.1分页文字采集过滤规则详说(图文教程)续四
写个完整的分页过滤规则:
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim} 

再采集下,看看结果:

dede3.1分页文字采集过滤规则详说(图文教程)续四

好了,分页成功,无多余代码。至此,全部主要的代码部分完成。
结果在这里:
有分页的:党员干部作风整顿剖析材料
无分页的: 文艺部工作计划
写一个完成的站点规则:

{!-- 节点基本信息 --} {dede:item name='天水_工作计划_1页' 
    imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'} 
{/dede:item} 
{!-- 采集列表获取规则 --} 
{dede:list source='var' sourcetype='list'  
          varstart='' varend=''} 
  {dede:url value='http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}     
  {dede:need}Gzjh/2007-{/dede:need} 
  {dede:cannot}Gzjh/2007-1{/dede:cannot} 
  {dede:linkarea}[var:区域]{/dede:linkarea} 
{/dede:list} 
{!-- 网页内容获取规则 --} 
{dede:art} 
{dede:sppage sptype='full'}<td align='center' height='30'>首页 上页[var:分页区域]页次{/dede:sppage} 
  {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题'  
  isunit='' isdown=''} 
    {dede:match}<title>[var:内容]--天水搜索</title>{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = @litpic;{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}if(@me!="") @me = GetMkTime(@me); 
else @me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容'  
  isunit='1' isdown='1'} 
    {dede:match}</TR> 
              <TR> 
                <TD height="8"></TD> 
              </TR> 
              <TR> 
                <TD valign="top" class=Connet><p>[var:内容]</p> 
                  </TD> 
              </TR>{/dede:match} 
        {dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim} 
    {dede:trim} 
{/dede:trim} 
    {dede:trim}<param([^>]*)>{/dede:trim} 
    {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} 
    {dede:trim}<embed([^>]*)>{/dede:trim} 
    {dede:trim}</embed>{/dede:trim} 
    {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} 
    {dede:trim}<object([^>]*)>{/dede:trim} 
    {dede:trim}</object>{/dede:trim} 
    {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} 
    {dede:trim}<OBJECT([^>]*)>{/dede:trim} 
    {dede:trim}</OBJECT>{/dede:trim} 
    {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} 
    {dede:trim}<iframe([^>]*)>{/dede:trim} 
    {dede:trim}</iframe>{/dede:trim} 
    {dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} 
    {dede:trim}<IFRAME([^>]*)>{/dede:trim} 
    {dede:trim}</IFRAME>{/dede:trim} 
    {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} 
    {dede:trim}<font([^>]*)>{/dede:trim} 
    {dede:trim}</font>{/dede:trim} 
    {dede:trim}<img([^>]*)>{/dede:trim} 
    {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} 
    {dede:trim}<a([^>]*)>{/dede:trim} 
    {dede:trim}</a>{/dede:trim} 
    {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} 
    {dede:trim}<td([^>]*)>{/dede:trim} 
    {dede:trim}</td>{/dede:trim} 
    {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} 
    {dede:trim}<tr([^>]*)>{/dede:trim} 
    {dede:trim}</tr>{/dede:trim} 
    {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} 
    {dede:trim}<tbody>{/dede:trim} 
    {dede:trim}</tbody>{/dede:trim} 
    {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} 
    {dede:trim}<table([^>]*)>{/dede:trim} 
    {dede:trim}</table>{/dede:trim} 
    {dede:trim} {/dede:trim} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me ='互联网'{/dede:function} 
  {/dede:note} 
{/dede:art}
PHP 相关文章推荐
function.inc.php超越php
Dec 09 PHP
PHP5.2中date()函数显示时间与北京时间相差8小时的解决办法
May 28 PHP
PHP取得一个类的属性和方法的实现代码
May 22 PHP
PHP写UltraEdit插件脚本实现方法
Dec 26 PHP
php的数组与字符串的转换函数整理汇总
Jul 18 PHP
Codeigniter实现处理用户登录验证后的URL跳转
Jun 12 PHP
PHP把JPEG图片转换成Progressive JPEG的方法
Jun 30 PHP
PHP实现设计模式中的抽象工厂模式详解
Oct 11 PHP
php中的登陆login实例代码
Jun 20 PHP
PHP简单数据库操作类实例【支持增删改查及链式操作】
Oct 10 PHP
PHP基于cookie实现统计在线人数功能示例
Jan 16 PHP
Ajax+PHP实现的分类列表框功能示例
Feb 11 PHP
dede3.1分页文字采集过滤规则详说(图文教程)续二
Apr 03 #PHP
dede3.1分页文字采集过滤规则详说(图文教程)
Apr 03 #PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
You might like
打造计数器DIY三步曲(下)
2006/10/09 PHP
信用卡效验程序
2006/10/09 PHP
PHP小技巧搜集,每个PHPer都来露一手
2007/01/02 PHP
PHP人民币金额数字转中文大写的函数代码
2013/02/27 PHP
onsubmit阻止form表单提交与onclick的相关操作
2010/09/03 Javascript
javascript陷阱 一不小心你就中招了(字符运算)
2013/11/10 Javascript
jquery操作 iframe的方法
2014/12/03 Javascript
JavaScript分秒倒计时器实现方法
2015/02/02 Javascript
使用javascript实现判断当前浏览器
2015/04/14 Javascript
JavaScript 经典实例日常收集整理(常用经典)
2016/03/30 Javascript
JS实现动态表格的添加,修改,删除功能(推荐)
2016/06/15 Javascript
第一次接触神奇的Bootstrap菜单和导航
2016/08/01 Javascript
jQuery 的 ready()的纯js替代方法
2016/11/20 Javascript
angularjs 实现带查找筛选功能的select下拉框实例
2017/01/11 Javascript
基于Bootstrap的Java开发问题汇总(Spring MVC)
2017/01/15 Javascript
jQuery插件FusionCharts绘制的2D双面积图效果示例【附demo源码】
2017/04/11 jQuery
webpack+vue2构建vue项目骨架的方法
2018/01/09 Javascript
使用Angular CLI进行单元测试和E2E测试的方法
2018/03/24 Javascript
vue集成百度UEditor富文本编辑器使用教程
2018/09/21 Javascript
vue语法自动转typescript(解放双手)
2019/09/18 Javascript
jQuery 筛选器简单操作示例
2019/10/02 jQuery
JS forEach跳出循环2种实现方法
2020/06/24 Javascript
Vue 的 v-model用法实例
2020/11/23 Vue.js
[01:18]一目了然!DOTA2DotA快捷操作对比第一弹
2014/07/01 DOTA
学习python类方法与对象方法
2016/03/15 Python
Python使用filetype精确判断文件类型
2017/07/02 Python
python实现猜单词小游戏
2020/05/22 Python
centos6.8安装python3.7无法import _ssl的解决方法
2018/09/17 Python
如何用Python 加密文件
2020/09/10 Python
科茨沃尔德家居商店:Scotts of Stow
2018/06/29 全球购物
大学自荐信
2013/12/12 职场文书
女方回门宴答谢词
2014/01/14 职场文书
教师节学生演讲稿
2014/09/03 职场文书
入团介绍人意见范文
2015/06/04 职场文书
学长教您写论文:经验总结
2019/07/09 职场文书
Ruby GDBM操作简介及数据存储原理
2022/04/19 Ruby