火车头采集器3.0采集图文教程


Posted in PHP onMarch 17, 2007
以采集示例详解部分功能
今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:
火车头采集器3.0采集图文教程
为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图火车头采集器3.0采集图文教程
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于
等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
火车头采集器3.0采集图文教程
3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:
火车头采集器3.0采集图文教程
我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以
作为内容开始的标志。火车头采集器3.0采集图文教程
接下来看内容结束标志,如下两图:
火车头采集器3.0采集图文教程 火车头采集器3.0采集图文教程
下面是根据我么设置规则采集回来的内容
火车头采集器3.0采集图文教程
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
火车头采集器3.0采集图文教程
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛:http://bbs.locoy.com 探讨。

二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
火车头采集器3.0采集图文教程
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
火车头采集器3.0采集图文教程
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
火车头采集器3.0采集图文教程
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
火车头采集器3.0采集图文教程
下面是刚才我采集到本地论坛采集测试的两个截屏:
火车头采集器3.0采集图文教程火车头采集器3.0采集图文教程

PHP 相关文章推荐
也谈截取首页新闻 - 范例
Oct 09 PHP
PHP 基本语法格式
Dec 15 PHP
一些php技巧与注意事项分析
Feb 03 PHP
使用php检测用户当前使用的浏览器是否为IE浏览器
Dec 03 PHP
生成随机字符串和验证码的类的PHP实例
Dec 24 PHP
php实现的支持断点续传的文件下载类
Sep 23 PHP
PHP缓存集成库phpFastCache用法
Dec 15 PHP
yii2中添加验证码的实现方法
Jan 09 PHP
thinkphp3.2点击刷新生成验证码
Feb 16 PHP
PHP常用字符串函数小结(推荐)
Aug 05 PHP
PHP中PCRE正则解析代码详解
Apr 26 PHP
Laravel框架Eloquent ORM删除数据操作示例
Dec 03 PHP
php环境配置 php5 MySQL5 apache2 phpmyadmin安装与配置图文教程
Mar 16 #PHP
Discuz 5.0 中读取纯真IP数据库函数分析
Mar 16 #PHP
初级的用php写的采集程序
Mar 16 #PHP
php下使用无限生命期Session的方法
Mar 16 #PHP
随时给自己贴的图片加文字的php水印
Mar 16 #PHP
php的一个登录的类 [推荐]
Mar 16 #PHP
对Session和Cookie的区分与解释
Mar 16 #PHP
You might like
php class中self,parent,this的区别以及实例介绍
2013/04/24 PHP
php微信支付之APP支付方法
2015/03/04 PHP
php使用CutyCapt实现网页截图保存的方法
2016/10/03 PHP
PHP用continue跳过本次循环中剩余代码的注意点
2017/06/27 PHP
YII2框架中日志的配置与使用方法实例分析
2020/03/18 PHP
mysql输出数据赋给js变量报unterminated string literal错误原因
2010/05/22 Javascript
JavaScript 操作键盘的Enter事件(键盘任何事件),兼容多浏览器
2010/10/11 Javascript
仅IE支持clearAttributes/mergeAttributes方法使用介绍
2012/05/04 Javascript
浅析javascript的return语句
2015/12/15 Javascript
玩转JavaScript OOP - 类的实现详解
2016/06/08 Javascript
基于JavaScript实现点击页面任何位置返回
2016/08/31 Javascript
Vue2.0中集成UEditor富文本编辑器的方法
2018/03/03 Javascript
Bootstrap table中toolbar新增条件查询及refresh参数使用方法
2018/05/18 Javascript
vue中axios的封装问题(简易版拦截,get,post)
2018/06/15 Javascript
在vue中使用v-bind:class的选项卡方法
2018/09/27 Javascript
实例讲解v-if和v-show的区别
2019/01/31 Javascript
node使用request请求的方法
2019/12/20 Javascript
vue.js+ElementUI实现进度条提示密码强度效果
2020/01/18 Javascript
Vue中函数防抖节流的理解及应用实现
2020/04/24 Javascript
[02:34]2016完美“圣”典风云人物:BurNIng专访
2016/12/10 DOTA
[03:35]2018年度DOTA2最佳辅助位选手5号位-完美盛典
2018/12/17 DOTA
Python通过websocket与js客户端通信示例分析
2014/06/25 Python
python下解压缩zip文件并删除文件的实例
2018/04/24 Python
Python selenium根据class定位页面元素的方法
2019/02/26 Python
快速解决docker-py api版本不兼容的问题
2019/08/30 Python
tensorflow入门:TFRecordDataset变长数据的batch读取详解
2020/01/20 Python
python 实现线程之间的通信示例
2020/02/14 Python
python反扒机制的5种解决方法
2021/02/06 Python
python SOCKET编程基础入门
2021/02/27 Python
HTML5标签小集
2011/08/02 HTML / CSS
英国快时尚女装购物网站:PrettyLittleThing
2018/08/15 全球购物
Liu Jo西班牙官网:意大利服装品牌
2019/09/11 全球购物
大学生最常用的自我评价
2013/12/07 职场文书
大学生通用个人自我评价
2014/04/27 职场文书
村官2015年度工作总结
2015/10/14 职场文书
好段摘抄大全(48句)
2019/08/08 职场文书