PHP 采集程序原理分析篇


Posted in PHP onMarch 05, 2010

苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。
采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。

首先确定一个采集页,一般就是列表面了。这里目标是:https://3water.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。

有列表页了,第一步先打开它,把它的内容纳入到我们的程序中来。一般用fopen或是file_get_contents这两个函数,我们这里用fopen作例子。怎么打开它呢?很简单:$source=fopen("https://3water.com/article/11/index.htm",'r');实际上已经把内容纳入到我们的程序中来了。注意得到的$source是一个资源,不是可处理的文本,所以再用函数fread将内容读到一个变量中,这次就是真正的可编辑的文本了。例子:
$content=fread($source,99999);后面的数字表示字节数,填个大的就行。你用file_put_contents将$content写入到一个文本文件,可以看出里面的内容其实就是网页的源码。得到了网页的源码,我们就要分析里面的文章链接地址,这里要用到正则表达式了,[推荐正则表达式教程(https://3water.com/article/7/all/545.1.htm)]。通过查看源代码,我们可以看到里面文章的链接地址全是这个样子<div class="in_arttitle"><a href="https://3water.com/article/10/all/273.1.htm">

将数据库连接代码封装在函数里,在需要读取时调用..</a>
我们就可以写正则表达式了。$count=preg_match_all("/<div class=\"in_arttitle\"><a\shref=\"(.+?)\">(.+?)<\/a>/",$content,$art_list);
其中数组$art_list[1][$s]里面包含的就是某个文章的链接地址。而$art_list[2][$s]包含的就是某一文章的标题。到了这一步就可以算成功了一半了。
接着用for循环依次打每个链接,然后像取得标题一样的方法取得内容即可。以上这些和我在网上找的教程都差不多,但是到了这个for循环网上的教程可就差劲,还没找到一篇可以说清这个事的文章,刚开始我是用js来帮助循环的,还是用实例说吧,刚开始我是这样做的:
for($i=0;$i<20;4i++ {
中间就是采集内容的部分了,省略了
采集了一页,肯定要采集再一页啊
可是再用fopen打开链接时就不行了。请求失败什么的,用js也不行,最后才知道要用这句echo "<META HTTP-EQUIV=REFRESH CONTENT='0;URL=aa.php?id=1'>";其中aa.php就是我们的程序的文件名, id后面的数字就可以帮助我们实现循环,采集多个页面。这就是能真正循环起来的关键
}
脑子有点难受,写得有点乱,将就着看吧,在高手看来这可能没什么大不了的,可是对于我等菜鸟来说,实在是很有帮助。

PHP 相关文章推荐
PHP生成静态页
Nov 25 PHP
PHP similar_text 字符串的相似性比较函数
May 26 PHP
smarty巧妙处理iframe中内容页的代码
Mar 07 PHP
php获取随机数组列表的方法
Nov 13 PHP
PHP strtotime函数用法、实现原理和源码分析
Feb 04 PHP
php中smarty模板条件判断用法实例
Jun 11 PHP
用PHP的socket实现客户端到服务端的通信实例详解
Feb 04 PHP
PHP实现文字写入图片功能
Feb 18 PHP
详解PHP 二维数组排序保持键名不变
Mar 06 PHP
thinkphp框架类库扩展操作示例
Nov 26 PHP
PHP检查文件是否存在,不存在自动创建及读取文件内容操作示例
Jan 23 PHP
MacOS下PHP7.1升级到PHP7.4.15的方法
Feb 22 PHP
PHP 一个页面执行时间类代码
Mar 05 #PHP
一步一步学习PHP(8) php 数组
Mar 05 #PHP
一步一步学习PHP(7) php 字符串相关应用
Mar 05 #PHP
PHP 创建文件(文件夹)以及目录操作代码
Mar 04 #PHP
php &amp;&amp; 逻辑与运算符使用说明
Mar 04 #PHP
PHP MVC模式在网站架构中的实现分析
Mar 04 #PHP
通用PHP动态生成静态HTML网页的代码
Mar 04 #PHP
You might like
php实现rc4加密算法代码
2012/04/25 PHP
PHP实例分享判断客户端是否使用代理服务器及其匿名级别
2014/06/04 PHP
php输出金字塔的2种实现方法
2014/12/16 PHP
JS 图片缩放效果代码
2010/06/09 Javascript
js实现的跟随鼠标移动的时钟效果(中英文日期显示)
2011/01/17 Javascript
解析Jquery中如何把一段html代码动态写入到DIV中(实例说明)
2013/07/09 Javascript
javascript中eval函数用法分析
2015/04/25 Javascript
纯CSS3代码实现滑动开关效果
2015/08/19 Javascript
浅析四种常见的Javascript声明循环变量的书写方式
2015/10/14 Javascript
javascript插件开发的一些感想和心得
2016/02/28 Javascript
解决Webpack 热部署检测不到文件变化的问题
2018/02/22 Javascript
微信小程序网络请求封装示例
2018/07/24 Javascript
VUE+Element环境搭建与安装的方法步骤
2019/01/24 Javascript
redux.js详解及基本使用
2019/05/24 Javascript
python学习数据结构实例代码
2015/05/11 Python
Python实现MySQL操作的方法小结【安装,连接,增删改查等】
2017/07/12 Python
Python实现获取nginx服务器ip及流量统计信息功能示例
2018/05/18 Python
Python标准库使用OrderedDict类的实例讲解
2019/02/14 Python
钉钉群自定义机器人消息Python封装的实例
2019/02/20 Python
python 批量解压压缩文件的实例代码
2019/06/27 Python
Python numpy线性代数用法实例解析
2019/11/15 Python
python将字符串转变成dict格式的实现
2019/11/18 Python
Python urlencode和unquote函数使用实例解析
2020/03/31 Python
在python中实现求输出1-3+5-7+9-......101的和
2020/04/02 Python
用python发送微信消息
2020/12/21 Python
美国最大的珠宝首饰网上商城:Jewelry.com
2016/07/22 全球购物
美国特价机票专家:Airfarewatchdog
2018/01/24 全球购物
企业宣传方案
2014/03/04 职场文书
厨师个人自我鉴定范文
2014/04/19 职场文书
微笑服务演讲稿
2014/05/13 职场文书
离职告别感言
2015/08/04 职场文书
公司劳动纪律管理制度
2015/08/04 职场文书
小学三年级作文之写景
2019/11/05 职场文书
css3实现的加载动画效果
2021/04/07 HTML / CSS
Oracle11g r2 卸载干净重装的详细教程(亲测有效已重装过)
2021/06/04 Oracle
前端监听websocket消息并实时弹出(实例代码)
2021/11/27 Javascript