火车头采集器3.0采集图文教程


Posted in PHP onMarch 17, 2007
以采集示例详解部分功能
今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:
火车头采集器3.0采集图文教程
为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图火车头采集器3.0采集图文教程
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于
等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
火车头采集器3.0采集图文教程
3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:
火车头采集器3.0采集图文教程
我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以
作为内容开始的标志。火车头采集器3.0采集图文教程
接下来看内容结束标志,如下两图:
火车头采集器3.0采集图文教程 火车头采集器3.0采集图文教程
下面是根据我么设置规则采集回来的内容
火车头采集器3.0采集图文教程
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
火车头采集器3.0采集图文教程
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛:http://bbs.locoy.com 探讨。

二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
火车头采集器3.0采集图文教程
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
火车头采集器3.0采集图文教程
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
火车头采集器3.0采集图文教程
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
火车头采集器3.0采集图文教程
下面是刚才我采集到本地论坛采集测试的两个截屏:
火车头采集器3.0采集图文教程火车头采集器3.0采集图文教程

PHP 相关文章推荐
一个简单的PHP入门源程序
Oct 09 PHP
PHP服务器页面间跳转实现方法
Aug 02 PHP
基于php设计模式中工厂模式详细介绍
May 15 PHP
php计算当前程序执行时间示例
Apr 24 PHP
PHP判断文章里是否有图片的简单方法
Jul 26 PHP
laravel 5 实现模板主题功能
Mar 02 PHP
thinkPHP中验证码的简单实现方法
Dec 05 PHP
thinkphp 字母函数详解T/I/N/D/M/A/R/U
Apr 03 PHP
php 删除指定文件夹的实例讲解
Jul 25 PHP
PHP中使用jQuery+Ajax实现分页查询多功能操作(示例讲解)
Sep 17 PHP
PHP中一个有趣的preg_replace函数详解
Aug 15 PHP
PHP实现字符串的全排列详解
Apr 24 PHP
php环境配置 php5 MySQL5 apache2 phpmyadmin安装与配置图文教程
Mar 16 #PHP
Discuz 5.0 中读取纯真IP数据库函数分析
Mar 16 #PHP
初级的用php写的采集程序
Mar 16 #PHP
php下使用无限生命期Session的方法
Mar 16 #PHP
随时给自己贴的图片加文字的php水印
Mar 16 #PHP
php的一个登录的类 [推荐]
Mar 16 #PHP
对Session和Cookie的区分与解释
Mar 16 #PHP
You might like
Session的工作方式
2006/10/09 PHP
PHP计划任务、定时执行任务的实现代码
2011/04/23 PHP
PHP中判断文件存在使用is_file还是file_exists?
2015/04/03 PHP
php实现多维数组排序的方法示例
2017/03/23 PHP
[原创]PHP正则删除html代码中a标签并保留标签内容的方法
2017/05/23 PHP
javascript实现的鼠标链接提示效果生成器代码
2007/06/28 Javascript
该如何加载google-analytics(或其他第三方)的JS
2010/05/13 Javascript
Angular用来控制元素的展示与否的原生指令介绍
2015/01/07 Javascript
nodeJs爬虫获取数据简单实现代码
2016/03/29 NodeJs
每日十条JavaScript经验技巧(一)
2016/06/23 Javascript
jQuery ajaxSubmit 实现ajax提交表单局部刷新
2016/07/04 Javascript
AngularJS的Filter的示例详解
2017/03/07 Javascript
原生JS实现日历组件的示例代码
2017/09/22 Javascript
还不懂递归?读完这篇文章保证你会懂
2018/07/29 Javascript
vue键盘事件点击事件加native操作
2020/07/27 Javascript
vue props default Array或是Object的正确写法说明
2020/07/30 Javascript
vue实现登录功能
2020/12/31 Vue.js
python多线程抓取天涯帖子内容示例
2014/04/03 Python
python实现从字典中删除元素的方法
2015/05/04 Python
apache部署python程序出现503错误的解决方法
2017/07/24 Python
python统计多维数组的行数和列数实例
2018/06/23 Python
详解python里的命名规范
2018/07/16 Python
Python3.5 Pandas模块之DataFrame用法实例分析
2019/04/23 Python
详解PyCharm安装MicroPython插件的教程
2019/06/24 Python
python标记语句块使用方法总结
2019/08/05 Python
python批量替换文件名中的共同字符实例
2020/03/05 Python
Django ModelForm操作及验证方式
2020/03/30 Python
使用CSS3实现input多选框自定义样式的方法示例
2019/07/19 HTML / CSS
LG西班牙网上商店:Tienda LG Online Es
2019/07/30 全球购物
网络信息安全承诺书
2014/03/26 职场文书
2014年银行柜员工作总结
2014/11/12 职场文书
华山导游词
2015/02/03 职场文书
大学生个人简历自我评价
2015/03/11 职场文书
opencv-python图像配准(匹配和叠加)的实现
2021/06/23 Python
Golang实现可重入锁的示例代码
2022/05/25 Golang
javascript中Set、Map、WeakSet、WeakMap区别
2022/12/24 Javascript