PHP 采集程序原理分析篇


Posted in PHP onMarch 05, 2010

苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。
采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。

首先确定一个采集页,一般就是列表面了。这里目标是:https://3water.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。

有列表页了,第一步先打开它,把它的内容纳入到我们的程序中来。一般用fopen或是file_get_contents这两个函数,我们这里用fopen作例子。怎么打开它呢?很简单:$source=fopen("https://3water.com/article/11/index.htm",'r');实际上已经把内容纳入到我们的程序中来了。注意得到的$source是一个资源,不是可处理的文本,所以再用函数fread将内容读到一个变量中,这次就是真正的可编辑的文本了。例子:
$content=fread($source,99999);后面的数字表示字节数,填个大的就行。你用file_put_contents将$content写入到一个文本文件,可以看出里面的内容其实就是网页的源码。得到了网页的源码,我们就要分析里面的文章链接地址,这里要用到正则表达式了,[推荐正则表达式教程(https://3water.com/article/7/all/545.1.htm)]。通过查看源代码,我们可以看到里面文章的链接地址全是这个样子<div class="in_arttitle"><a href="https://3water.com/article/10/all/273.1.htm">

将数据库连接代码封装在函数里,在需要读取时调用..</a>
我们就可以写正则表达式了。$count=preg_match_all("/<div class=\"in_arttitle\"><a\shref=\"(.+?)\">(.+?)<\/a>/",$content,$art_list);
其中数组$art_list[1][$s]里面包含的就是某个文章的链接地址。而$art_list[2][$s]包含的就是某一文章的标题。到了这一步就可以算成功了一半了。
接着用for循环依次打每个链接,然后像取得标题一样的方法取得内容即可。以上这些和我在网上找的教程都差不多,但是到了这个for循环网上的教程可就差劲,还没找到一篇可以说清这个事的文章,刚开始我是用js来帮助循环的,还是用实例说吧,刚开始我是这样做的:
for($i=0;$i<20;4i++ {
中间就是采集内容的部分了,省略了
采集了一页,肯定要采集再一页啊
可是再用fopen打开链接时就不行了。请求失败什么的,用js也不行,最后才知道要用这句echo "<META HTTP-EQUIV=REFRESH CONTENT='0;URL=aa.php?id=1'>";其中aa.php就是我们的程序的文件名, id后面的数字就可以帮助我们实现循环,采集多个页面。这就是能真正循环起来的关键
}
脑子有点难受,写得有点乱,将就着看吧,在高手看来这可能没什么大不了的,可是对于我等菜鸟来说,实在是很有帮助。

PHP 相关文章推荐
PHP自动生成月历代码
Oct 09 PHP
PHP排序算法的复习和总结
Feb 15 PHP
基于xcache的配置与使用详解
Jun 18 PHP
thinkphp文件处理类Dir.class.php的用法分析
Dec 08 PHP
PHP连接MSSQL时nvarchar字段长度被截断为255的解决方法
Dec 25 PHP
php显示时间常用方法小结
Jun 05 PHP
php使用for语句输出三角形的方法
Jun 09 PHP
百度地图API使用方法详解
Aug 25 PHP
让你的PHP7更快之Hugepage用法分析
May 31 PHP
PHP编程文件处理类SplFileObject和SplFileInfo用法实例分析
Jul 22 PHP
PHP实现的策略模式示例
Mar 20 PHP
php自动加载代码实例详解
Feb 26 PHP
PHP 一个页面执行时间类代码
Mar 05 #PHP
一步一步学习PHP(8) php 数组
Mar 05 #PHP
一步一步学习PHP(7) php 字符串相关应用
Mar 05 #PHP
PHP 创建文件(文件夹)以及目录操作代码
Mar 04 #PHP
php &amp;&amp; 逻辑与运算符使用说明
Mar 04 #PHP
PHP MVC模式在网站架构中的实现分析
Mar 04 #PHP
通用PHP动态生成静态HTML网页的代码
Mar 04 #PHP
You might like
双料怀旧--SHARP GF515的维护、修理和简单调试
2021/03/02 无线电
图书管理程序(三)
2006/10/09 PHP
php实现的在线人员函数库
2008/04/09 PHP
PHP实现十进制、二进制、八进制和十六进制转换相关函数用法分析
2017/04/25 PHP
javascript 自动转到命名锚记
2009/01/10 Javascript
jquery cookie插件代码类
2009/05/26 Javascript
javascript学习笔记(十三) js闭包介绍(转)
2012/06/20 Javascript
Express.JS使用详解
2014/07/17 Javascript
讲解JavaScript的Backbone.js框架的MVC结构设计理念
2016/02/14 Javascript
基于jQuery下拉选择框插件支持单选多选功能代码
2016/06/07 Javascript
JS正则子匹配实例分析
2016/12/22 Javascript
vue.js 上传图片实例代码
2017/06/22 Javascript
JavaScript生成简单等差数列
2017/11/28 Javascript
javascript+css3开发打气球小游戏完整代码
2017/11/28 Javascript
微信小程序实现图片上传功能实例(前端+PHP后端)
2018/01/10 Javascript
vue实现在v-html的html字符串中绑定事件
2019/10/28 Javascript
vue 将多个过滤器封装到一个文件中的代码详解
2020/09/05 Javascript
基于vue与element实现创建试卷相关功能(实例代码)
2020/12/07 Vue.js
[04:13]2014DOTA2国际邀请赛 专访DC目前形势不容乐观
2014/07/12 DOTA
[02:34]2016完美“圣”典风云人物:BurNIng专访
2016/12/10 DOTA
python绘图库Matplotlib的安装
2014/07/03 Python
windows7 32、64位下python爬虫框架scrapy环境的搭建方法
2018/11/29 Python
详解如何设置Python环境变量?
2019/05/13 Python
django formset实现数据表的批量操作的示例代码
2019/12/06 Python
python多进程并发demo实例解析
2019/12/13 Python
scrapy redis配置文件setting参数详解
2020/11/18 Python
python+selenium自动化实战携带cookies模拟登陆微博
2021/01/19 Python
CSS3实现可关闭的下拉手风琴菜单效果
2015/08/31 HTML / CSS
CSS3模拟动画下拉菜单效果
2017/04/12 HTML / CSS
机电专业大学生求职信
2013/10/04 职场文书
电钳专业个人求职信
2014/01/04 职场文书
单位政审意见范文
2015/06/04 职场文书
2016年大学生就业指导课心得体会
2015/10/09 职场文书
2016年大学光棍节活动总结
2016/04/05 职场文书
详解前端任务构建利器Gulp.js使用指南
2021/04/30 Javascript
Python实现byte转integer
2021/06/03 Python