PHP 采集程序原理分析篇


Posted in PHP onMarch 05, 2010

苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。
采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。

首先确定一个采集页,一般就是列表面了。这里目标是:https://3water.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。

有列表页了,第一步先打开它,把它的内容纳入到我们的程序中来。一般用fopen或是file_get_contents这两个函数,我们这里用fopen作例子。怎么打开它呢?很简单:$source=fopen("https://3water.com/article/11/index.htm",'r');实际上已经把内容纳入到我们的程序中来了。注意得到的$source是一个资源,不是可处理的文本,所以再用函数fread将内容读到一个变量中,这次就是真正的可编辑的文本了。例子:
$content=fread($source,99999);后面的数字表示字节数,填个大的就行。你用file_put_contents将$content写入到一个文本文件,可以看出里面的内容其实就是网页的源码。得到了网页的源码,我们就要分析里面的文章链接地址,这里要用到正则表达式了,[推荐正则表达式教程(https://3water.com/article/7/all/545.1.htm)]。通过查看源代码,我们可以看到里面文章的链接地址全是这个样子<div class="in_arttitle"><a href="https://3water.com/article/10/all/273.1.htm">

将数据库连接代码封装在函数里,在需要读取时调用..</a>
我们就可以写正则表达式了。$count=preg_match_all("/<div class=\"in_arttitle\"><a\shref=\"(.+?)\">(.+?)<\/a>/",$content,$art_list);
其中数组$art_list[1][$s]里面包含的就是某个文章的链接地址。而$art_list[2][$s]包含的就是某一文章的标题。到了这一步就可以算成功了一半了。
接着用for循环依次打每个链接,然后像取得标题一样的方法取得内容即可。以上这些和我在网上找的教程都差不多,但是到了这个for循环网上的教程可就差劲,还没找到一篇可以说清这个事的文章,刚开始我是用js来帮助循环的,还是用实例说吧,刚开始我是这样做的:
for($i=0;$i<20;4i++ {
中间就是采集内容的部分了,省略了
采集了一页,肯定要采集再一页啊
可是再用fopen打开链接时就不行了。请求失败什么的,用js也不行,最后才知道要用这句echo "<META HTTP-EQUIV=REFRESH CONTENT='0;URL=aa.php?id=1'>";其中aa.php就是我们的程序的文件名, id后面的数字就可以帮助我们实现循环,采集多个页面。这就是能真正循环起来的关键
}
脑子有点难受,写得有点乱,将就着看吧,在高手看来这可能没什么大不了的,可是对于我等菜鸟来说,实在是很有帮助。

PHP 相关文章推荐
实现php加速的eAccelerator dll支持文件打包下载
Sep 30 PHP
利用ThinkPHP内置的ThinkAjax实现异步传输技术的实现方法
Dec 19 PHP
用PHP实现弹出消息提示框的两种方法
Dec 17 PHP
PHP数字字符串左侧补0、字符串填充和自动补齐的几种方法
May 10 PHP
php使用CURL伪造IP和来源实例详解
Jan 15 PHP
PHP将HTML转换成文本的实现代码
Jan 21 PHP
php curl请求信息和返回信息设置代码实例
Apr 27 PHP
解析WordPress中控制用户登陆和判断用户登陆的PHP函数
Mar 01 PHP
PHP模板引擎Smarty内建函数section,sectionelse用法详解
Apr 11 PHP
PHP简单日历实现方法
Jul 20 PHP
PHP获取二叉树镜像的方法
Jan 17 PHP
PHP与Web页面交互操作实例分析
Jun 02 PHP
PHP 一个页面执行时间类代码
Mar 05 #PHP
一步一步学习PHP(8) php 数组
Mar 05 #PHP
一步一步学习PHP(7) php 字符串相关应用
Mar 05 #PHP
PHP 创建文件(文件夹)以及目录操作代码
Mar 04 #PHP
php &amp;&amp; 逻辑与运算符使用说明
Mar 04 #PHP
PHP MVC模式在网站架构中的实现分析
Mar 04 #PHP
通用PHP动态生成静态HTML网页的代码
Mar 04 #PHP
You might like
PHP 已经成熟
2006/12/04 PHP
PHP面向对象分析设计的61条军规小结
2010/07/17 PHP
php生成rss类用法实例
2015/04/14 PHP
提高php编程效率技巧
2015/08/13 PHP
Yii框架结合sphinx,Ajax实现搜索分页功能示例
2016/10/18 PHP
php原生导出excel文件的两种方法(推荐)
2016/11/19 PHP
Laravel框架基础语法与知识点整理【模板变量、输出、include引入子视图等】
2019/12/03 PHP
CSS和JS标签style属性对照表(方便js开发的朋友)
2010/11/11 Javascript
jquery实现图片等比例缩放以及max-width在ie中不兼容解决
2013/03/21 Javascript
jq选项卡鼠标延迟的插件实例
2013/05/13 Javascript
javascript中的绑定与解绑函数应用示例
2013/06/24 Javascript
模拟一个类似百度google的模糊搜索下拉列表
2014/04/15 Javascript
js实现表单多按钮提交action的处理方法
2015/10/24 Javascript
js实现二级菜单渐隐显示
2015/11/03 Javascript
js识别uc浏览器的代码
2015/11/06 Javascript
AngularJS 执行流程详细介绍
2016/08/18 Javascript
javascript实现的上下无缝滚动效果
2016/09/19 Javascript
基于NodeJS+MongoDB+AngularJS+Bootstrap开发书店案例分析
2017/01/12 NodeJs
JavaScrpt判断一个数是否是质数的实例代码
2017/06/11 Javascript
原生js实现淘宝放大镜效果
2020/10/28 Javascript
CKEditor 4.4.1 添加代码高亮显示插件功能教程【使用官方推荐Code Snippet插件】
2019/06/14 Javascript
python正则表达式抓取成语网站
2013/11/20 Python
用map函数来完成Python并行任务的简单示例
2015/04/02 Python
Python线程的两种编程方式
2015/04/14 Python
Python中利用Scipy包的SIFT方法进行图片识别的实例教程
2016/06/03 Python
python 线性回归分析模型检验标准--拟合优度详解
2020/02/24 Python
Web前端页面跳转并取到值
2017/04/24 HTML / CSS
使用placeholder属性设置input文本框的提示信息
2020/02/19 HTML / CSS
FOREO斐珞尔官方旗舰店:LUNA露娜洁面仪
2018/03/11 全球购物
Java中有几种类型的流?JDK为每种类型的流提供了一些抽象类以供继承,请说出他们分别是哪些类?
2012/05/30 面试题
安全资金保障制度
2014/01/23 职场文书
井冈山红色之旅心得体会
2014/10/07 职场文书
临时用工协议书范本
2014/10/29 职场文书
2015年实习单位评语
2015/03/25 职场文书
Redis入门基础常用操作命令整理
2022/06/01 Redis
MySQL中order by的执行过程
2022/06/05 MySQL