dede3.1分页文字采集过滤规则详说(图文教程)


Posted in PHP onApril 03, 2007

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本,通过简单的变通和改动,解决一般性文字分页的采集问题

一、范例部分
范例分页区域代码:
范例分页区域代码:
dede3.1分页文字采集过滤规则详说(图文教程)
范例分页区域取样代码:
  分页区域取样(匹配):
dede3.1分页文字采集过滤规则详说(图文教程)

范例分页内容过滤规则:
分页内容过滤规则:
dede3.1分页文字采集过滤规则详说(图文教程)
范例采集内容预览:
范例采集内容预览:
dede3.1分页文字采集过滤规则详说(图文教程)

范例全代码(说明:此代码为在原基础上进行更改后的代码,原代码版本不同,直接导入后无效,因此在dede论坛中有许多朋友说过‘直接导入人家的代码都不能用',确实如此):
输出结果:http://wen.soudata.net/html/guizeceshi/caijibiji/20070327/2044_2.html
与原文比较下吧:http://www.xiaocao.com/text/class1/class1/200609/text_28623.html
这是全部的代码,可导入试下:

{!-- 节点基本信息 --} {dede:item name='论坛范例_工作总结_成功(改)' 
    imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'} 
{/dede:item} 
{!-- 采集列表获取规则 --} 
{dede:list source='var' sourcetype='archives'  
          varstart='' varend=''} 
  {dede:url value='http://www.xiaocao.com/text/class1/class1/200609/text_28623.html'}{/dede:url}     
  {dede:need}{/dede:need} 
  {dede:cannot}{/dede:cannot} 
  {dede:linkarea}[var:区域]{/dede:linkarea} 
{/dede:list} 
{!-- 网页内容获取规则 --} 
{dede:art} 
{dede:sppage sptype='full'}<p align='center'><b><font color='red'>[1]</font>[var:分页区域]</b>{/dede:sppage} 
  {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题'  
  isunit='' isdown=''} 
    {dede:match}<title>[var:内容]</title>{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = @litpic;{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}if(@me!="") @me = GetMkTime(@me); 
else @me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}@me = time();{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容'  
  isunit='1' isdown=''} 
    {dede:match}<script language="JavaScript" type="text/javascript" src="/AD/artcontent.js"></script>[var:内容]<table width="100%" border="0" cellspacing="0" cellpadding="0"> 
{/dede:match} 
        {dede:trim}<p align='center'><b>(.*)</b></p>{/dede:trim} 
    {dede:function}{/dede:function} 
  {/dede:note} 
  {dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源'  
  isunit='' isdown=''} 
    {dede:match}{/dede:match} 
    {dede:function}{/dede:function} 
  {/dede:note} 
{/dede:art}
PHP 相关文章推荐
一棵php的类树(支持无限分类)
Oct 09 PHP
1.PHP简介
Oct 09 PHP
php学习笔记(三)操作符与控制结构
Aug 06 PHP
php获取$_POST同名参数数组的实现介绍
Jun 30 PHP
Yii使用CLinkPager分页实例详解
Jul 23 PHP
ThinkPHP中URL路径访问与模块控制器之间的关系
Aug 23 PHP
PHP+iFrame实现页面无需刷新的异步文件上传
Sep 16 PHP
php实现微信公众号无限群发
Oct 11 PHP
PHP中SQL查询语句的id=%d解释(推荐)
Dec 10 PHP
php中Ioc(控制反转)和Di(依赖注入)
May 07 PHP
php实现数组纵向转横向并过滤重复值的方法分析
May 29 PHP
thinkPHP5框架导出Excel文件简单操作示例
Aug 03 PHP
dedecms模版制作使用方法
Apr 03 #PHP
经典的PHPer为什么被认为是草根?
Apr 02 #PHP
在任意字符集下正常显示网页的方法二(续)
Apr 01 #PHP
在任意字符集下正常显示网页的方法一
Apr 01 #PHP
用PHP实现的生成静态HTML速度快类库
Mar 31 #PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
Mar 29 #PHP
实现dedecms全站URL静态化改造的代码
Mar 29 #PHP
You might like
php方法调用模式与函数调用模式简例
2011/09/20 PHP
php的POSIX 函数以及进程测试的深入分析
2013/06/03 PHP
PHP_Cooikes不同页面无法传递的解决方法
2014/03/07 PHP
javascript不同页面传值的改进版
2008/09/30 Javascript
SpringMVC返回json数据的三种方式
2015/12/10 Javascript
深入学习jQuery Validate表单验证(二)
2016/01/18 Javascript
Bootstrap3学习笔记(二)之排版
2016/05/20 Javascript
浅析$.getJSON异步请求和同步请求
2016/06/06 Javascript
Easyui使用Dialog行内按钮布局的实例
2017/07/27 Javascript
Vue.js划分组件的方法
2017/10/29 Javascript
Vue组件中的data必须是一个function的原因浅析
2018/09/03 Javascript
ES10 特性的完整指南小结
2019/03/04 Javascript
ES6模板字符串和标签模板的应用实例分析
2019/06/25 Javascript
小程序中的箭头函数的具体使用
2020/06/19 Javascript
js实现石头剪刀布游戏
2020/10/11 Javascript
Python 随机生成中文验证码的实例代码
2013/03/20 Python
以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法
2015/03/30 Python
Python运算符重载用法实例分析
2015/06/01 Python
python3 破解 geetest(极验)的滑块验证码功能
2018/02/24 Python
详解Django中CBV(Class Base Views)模型源码分析
2019/02/25 Python
实例详解Python模块decimal
2019/06/26 Python
python 函数中的内置函数及用法详解
2019/07/02 Python
python使用socket 先读取长度,在读取报文内容示例
2019/09/26 Python
python实时监控logstash日志代码
2020/04/27 Python
Scrapy+Selenium自动获取cookie爬取网易云音乐个人喜爱歌单
2021/02/01 Python
css3设置box-pack和box-align让div里面的元素垂直居中
2014/09/01 HTML / CSS
《蒙娜丽莎之约》教学反思
2014/02/27 职场文书
IT工程师岗位职责
2014/07/04 职场文书
烟台的海导游词
2015/02/02 职场文书
专家推荐信怎么写
2015/03/25 职场文书
党委工作总结2015
2015/04/27 职场文书
亲戚关系证明
2015/06/24 职场文书
参观监狱警示教育心得体会
2016/01/15 职场文书
高中数学课堂教学反思
2016/02/18 职场文书
创业计划书之都市休闲农庄
2019/12/28 职场文书
pyqt5蒙版遮罩mask,setmask的使用
2021/06/11 Python