火车头采集器3.0采集图文教程


Posted in PHP onMarch 17, 2007
以采集示例详解部分功能
今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:
火车头采集器3.0采集图文教程
为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图火车头采集器3.0采集图文教程
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于
等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
火车头采集器3.0采集图文教程
3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:
火车头采集器3.0采集图文教程
我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以
作为内容开始的标志。火车头采集器3.0采集图文教程
接下来看内容结束标志,如下两图:
火车头采集器3.0采集图文教程 火车头采集器3.0采集图文教程
下面是根据我么设置规则采集回来的内容
火车头采集器3.0采集图文教程
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
火车头采集器3.0采集图文教程
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛:http://bbs.locoy.com 探讨。

二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
火车头采集器3.0采集图文教程
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
火车头采集器3.0采集图文教程
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
火车头采集器3.0采集图文教程
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
火车头采集器3.0采集图文教程
下面是刚才我采集到本地论坛采集测试的两个截屏:
火车头采集器3.0采集图文教程火车头采集器3.0采集图文教程

PHP 相关文章推荐
PHP网上调查系统
Oct 09 PHP
手把手教你使用DedeCms V3的在线采集图文教程
Apr 03 PHP
解析VS2010利用VS.PHP插件调试PHP的方法
Jul 19 PHP
php自动识别文件编码并转换为UTF-8的方法
Jun 12 PHP
PHP+jQuery 注册模块开发详解
Oct 14 PHP
php的ddos攻击解决方法
Jan 08 PHP
php is_writable判断文件是否可写实例代码
Oct 13 PHP
php获取微信基础接口凭证Access_token
Aug 23 PHP
php fread函数使用方法总结
May 28 PHP
php菜单/评论数据递归分级算法的实现方法
Aug 01 PHP
laravel执行php artisan migrate报错的解决方法
Oct 09 PHP
Yii框架安装简明教程
May 15 PHP
php环境配置 php5 MySQL5 apache2 phpmyadmin安装与配置图文教程
Mar 16 #PHP
Discuz 5.0 中读取纯真IP数据库函数分析
Mar 16 #PHP
初级的用php写的采集程序
Mar 16 #PHP
php下使用无限生命期Session的方法
Mar 16 #PHP
随时给自己贴的图片加文字的php水印
Mar 16 #PHP
php的一个登录的类 [推荐]
Mar 16 #PHP
对Session和Cookie的区分与解释
Mar 16 #PHP
You might like
PHP 文件上传进度条的两种实现方法的代码
2007/11/25 PHP
php框架Phpbean说明
2008/01/10 PHP
PHP 类相关函数的使用详解
2013/05/10 PHP
php获取发送给用户的header信息的方法
2015/03/16 PHP
Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解
2020/10/20 PHP
Yii-自定义删除确认弹框(zyd)jquery实现代码
2013/03/04 Javascript
jquery(hide方法)隐藏指定元素实例
2013/11/11 Javascript
jquery text()方法取标签中的文本
2014/07/25 Javascript
js实现的捐赠管理完整实例
2015/01/20 Javascript
深入理解JavaScript系列(34):设计模式之命令模式详解
2015/03/03 Javascript
Node.js编写爬虫的基本思路及抓取百度图片的实例分享
2016/03/12 Javascript
原生JS查找元素的方法(推荐)
2016/11/22 Javascript
原生js实现秒表计时器功能
2017/02/16 Javascript
jQuery animate()实现背景色渐变效果的处理方法【使用jQuery.color.js插件】
2017/03/15 Javascript
微信小程序滑动选择器的实现代码
2018/08/10 Javascript
深入了解响应式React Native Echarts组件
2019/05/29 Javascript
javascript获取select值的方法完整实例
2019/06/20 Javascript
[41:12]Liquid vs Secret 2019国际邀请赛淘汰赛 败者组 BO3 第一场 8.24
2019/09/10 DOTA
使用Python对Csv文件操作实例代码
2017/05/12 Python
图解Python变量与赋值
2018/04/03 Python
利用Python+阿里云实现DDNS动态域名解析的方法
2019/04/01 Python
python 画函数曲线示例
2019/12/04 Python
Python 多线程共享变量的实现示例
2020/04/17 Python
Python使用sqlite3模块内置数据库
2020/05/07 Python
加拿大廉价机票预订网站:CheapOair.ca
2018/03/04 全球购物
MAC彩妆澳洲官网:M·A·C AU
2021/01/17 全球购物
Zatchels官网:英国剑桥包品牌
2021/01/12 全球购物
会计职业生涯规划范文
2014/01/04 职场文书
工程材料采购方案
2014/05/18 职场文书
信息与计算机科学职业规划范文:成为一艘有方向的船
2014/09/11 职场文书
物业管理委托协议(2篇)
2014/09/23 职场文书
会计工作总结范文2014
2014/12/23 职场文书
中学推普周活动总结
2015/05/07 职场文书
拿破仑传读书笔记
2015/07/01 职场文书
sqlserver连接错误之SQL评估期已过的问题解决
2022/03/23 SQL Server
Nginx反向代理、重定向
2022/04/13 Servers