火车头采集器3.0采集图文教程


Posted in PHP onMarch 17, 2007
以采集示例详解部分功能
今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:
火车头采集器3.0采集图文教程
为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图火车头采集器3.0采集图文教程
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于
等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
火车头采集器3.0采集图文教程
3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:
火车头采集器3.0采集图文教程
我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以
作为内容开始的标志。火车头采集器3.0采集图文教程
接下来看内容结束标志,如下两图:
火车头采集器3.0采集图文教程 火车头采集器3.0采集图文教程
下面是根据我么设置规则采集回来的内容
火车头采集器3.0采集图文教程
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
火车头采集器3.0采集图文教程
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛:http://bbs.locoy.com 探讨。

二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
火车头采集器3.0采集图文教程
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
火车头采集器3.0采集图文教程
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
火车头采集器3.0采集图文教程
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
火车头采集器3.0采集图文教程
下面是刚才我采集到本地论坛采集测试的两个截屏:
火车头采集器3.0采集图文教程火车头采集器3.0采集图文教程

PHP 相关文章推荐
PHP:风雨欲来 路在何方?
Oct 09 PHP
不用GD库生成当前时间的PNG格式图象的程序
Oct 09 PHP
PHP网上调查系统
Oct 09 PHP
从MySQL数据库表中取出随机数据的代码
Sep 05 PHP
php的curl实现get和post的代码
Aug 23 PHP
php侧拉菜单 漂亮,可以向右或者向左展开,支持FF,IE
Oct 15 PHP
使用cookie实现统计访问者登陆次数
Jun 08 PHP
Chrome Web App开发小结
Sep 04 PHP
PHP制作百度词典查词采集器
Jan 29 PHP
PHP实现全角字符转为半角方法汇总
Jul 09 PHP
php版微信公众账号第三方管理工具开发简明教程
Sep 23 PHP
PHP开启目录引索+fancyindex漂亮目录浏览带搜索功能
Sep 23 PHP
php环境配置 php5 MySQL5 apache2 phpmyadmin安装与配置图文教程
Mar 16 #PHP
Discuz 5.0 中读取纯真IP数据库函数分析
Mar 16 #PHP
初级的用php写的采集程序
Mar 16 #PHP
php下使用无限生命期Session的方法
Mar 16 #PHP
随时给自己贴的图片加文字的php水印
Mar 16 #PHP
php的一个登录的类 [推荐]
Mar 16 #PHP
对Session和Cookie的区分与解释
Mar 16 #PHP
You might like
比较详细PHP生成静态页面教程
2012/01/10 PHP
微信公众号判断用户是否已关注php代码解析
2016/06/24 PHP
apache php mysql开发环境安装教程
2016/07/28 PHP
php数据序列化测试实例详解
2017/08/12 PHP
yii框架redis结合php实现秒杀效果(实例代码)
2017/10/26 PHP
可以把编码转换成 gb2312编码lib.UTF8toGB2312.js
2007/08/21 Javascript
javascript 表单验证常见正则
2009/09/28 Javascript
Iframe 自适应高度并实时监控高度变化的js代码
2009/10/30 Javascript
基于jQuery实现点击同时更改两个iframe的网址
2010/07/01 Javascript
js获取TreeView控件选中节点的Text和Value值的方法
2012/11/24 Javascript
Web Inspector:关于在 Sublime Text 中调试Js的介绍
2013/04/18 Javascript
javascript圆盘抽奖程序实现原理和完整代码例子
2014/06/03 Javascript
javascript框架设计读书笔记之数组的扩展与修复
2014/12/02 Javascript
jquery实现仿新浪微博带动画效果弹出层代码(可关闭、可拖动)
2015/10/12 Javascript
javascript 注释代码的几种方法总结
2017/01/04 Javascript
基于vue2.0实现仿百度前端分页效果附实现代码
2018/10/30 Javascript
ant-design-vue 快速避坑指南(推荐)
2020/01/21 Javascript
vue实现导航标题栏随页面滚动渐隐渐显效果
2020/03/12 Javascript
Vue props中Object和Array设置默认值操作
2020/07/30 Javascript
[46:20]CHAOS vs Alliacne 2019国际邀请赛小组赛 BO2 第二场 8.15
2019/08/16 DOTA
Python Socket编程详细介绍
2017/03/23 Python
利用Python-iGraph如何绘制贴吧/微博的好友关系图详解
2017/11/02 Python
pandas DataFrame 根据多列的值做判断,生成新的列值实例
2018/05/18 Python
python递归法实现简易连连看小游戏
2020/03/25 Python
Django 模型类(models.py)的定义详解
2019/07/19 Python
Pytorch自己加载单通道图片用作数据集训练的实例
2020/01/18 Python
HTML5自定义视频播放器源码
2020/01/06 HTML / CSS
Shopee马来西亚:随拍即卖,最佳行动电商拍卖平台
2017/06/05 全球购物
康帕斯酒店预订:Compass Hospitality(支持中文)
2018/08/23 全球购物
岗位廉洁从政承诺书
2014/03/27 职场文书
毕业留言寄语大全
2014/04/10 职场文书
2016大学生入党积极分子心得体会
2016/01/06 职场文书
2016年企业先进员工事迹材料
2016/02/25 职场文书
如何才能写好调研报告?
2019/07/03 职场文书
基于Python实现射击小游戏的制作
2022/04/06 Python
Java十分钟精通进阶适配器模式
2022/04/06 Java/Android