PHP 采集程序原理分析篇


Posted in PHP onMarch 05, 2010

苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。
采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。

首先确定一个采集页,一般就是列表面了。这里目标是:https://3water.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。

有列表页了,第一步先打开它,把它的内容纳入到我们的程序中来。一般用fopen或是file_get_contents这两个函数,我们这里用fopen作例子。怎么打开它呢?很简单:$source=fopen("https://3water.com/article/11/index.htm",'r');实际上已经把内容纳入到我们的程序中来了。注意得到的$source是一个资源,不是可处理的文本,所以再用函数fread将内容读到一个变量中,这次就是真正的可编辑的文本了。例子:
$content=fread($source,99999);后面的数字表示字节数,填个大的就行。你用file_put_contents将$content写入到一个文本文件,可以看出里面的内容其实就是网页的源码。得到了网页的源码,我们就要分析里面的文章链接地址,这里要用到正则表达式了,[推荐正则表达式教程(https://3water.com/article/7/all/545.1.htm)]。通过查看源代码,我们可以看到里面文章的链接地址全是这个样子<div class="in_arttitle"><a href="https://3water.com/article/10/all/273.1.htm">

将数据库连接代码封装在函数里,在需要读取时调用..</a>
我们就可以写正则表达式了。$count=preg_match_all("/<div class=\"in_arttitle\"><a\shref=\"(.+?)\">(.+?)<\/a>/",$content,$art_list);
其中数组$art_list[1][$s]里面包含的就是某个文章的链接地址。而$art_list[2][$s]包含的就是某一文章的标题。到了这一步就可以算成功了一半了。
接着用for循环依次打每个链接,然后像取得标题一样的方法取得内容即可。以上这些和我在网上找的教程都差不多,但是到了这个for循环网上的教程可就差劲,还没找到一篇可以说清这个事的文章,刚开始我是用js来帮助循环的,还是用实例说吧,刚开始我是这样做的:
for($i=0;$i<20;4i++ {
中间就是采集内容的部分了,省略了
采集了一页,肯定要采集再一页啊
可是再用fopen打开链接时就不行了。请求失败什么的,用js也不行,最后才知道要用这句echo "<META HTTP-EQUIV=REFRESH CONTENT='0;URL=aa.php?id=1'>";其中aa.php就是我们的程序的文件名, id后面的数字就可以帮助我们实现循环,采集多个页面。这就是能真正循环起来的关键
}
脑子有点难受,写得有点乱,将就着看吧,在高手看来这可能没什么大不了的,可是对于我等菜鸟来说,实在是很有帮助。

PHP 相关文章推荐
用PHP和ACCESS写聊天室(八)
Oct 09 PHP
第十四节--命名空间
Nov 16 PHP
PHP6 先修班 JSON实例代码
Aug 23 PHP
使用XDebug调试及单元测试覆盖率分析
Jan 27 PHP
ASP和PHP实现生成网站快捷方式并下载到桌面的方法
May 08 PHP
PHP中auto_prepend_file与auto_append_file用法实例分析
Sep 22 PHP
深入解析PHP的Yii框架中的缓存功能
Mar 29 PHP
php利用header函数下载各种文件
Aug 24 PHP
Yii2――使用数据库操作汇总(增删查改、事务)
Dec 19 PHP
PHP性能分析工具xhprof的安装使用与注意事项
Dec 19 PHP
详解PHP中的外观模式facade pattern
Feb 05 PHP
PHP PDO和消息队列的个人理解与应用实例分析
Nov 25 PHP
PHP 一个页面执行时间类代码
Mar 05 #PHP
一步一步学习PHP(8) php 数组
Mar 05 #PHP
一步一步学习PHP(7) php 字符串相关应用
Mar 05 #PHP
PHP 创建文件(文件夹)以及目录操作代码
Mar 04 #PHP
php &amp;&amp; 逻辑与运算符使用说明
Mar 04 #PHP
PHP MVC模式在网站架构中的实现分析
Mar 04 #PHP
通用PHP动态生成静态HTML网页的代码
Mar 04 #PHP
You might like
php中的一个中文字符串截取函数
2007/02/14 PHP
Windows中使用计划任务自动执行PHP程序实例
2014/05/09 PHP
迪菲-赫尔曼密钥交换(Diffie?Hellman)算法原理和PHP实现版
2015/05/12 PHP
thinkPHP事务操作简单案例分析
2019/10/17 PHP
PHP call_user_func和call_user_func_array函数的简单理解与应用分析
2019/11/25 PHP
一份老外写的XMLHttpRequest代码多浏览器支持兼容性
2007/01/11 Javascript
jquery里的each使用方法详解
2010/12/22 Javascript
背景图跟随鼠标移动的Mootools插件实现代码
2011/12/12 Javascript
文本框只能选择数据到文本框禁止手动输入
2013/11/22 Javascript
下拉列表select 由左边框移动到右边示例
2013/12/04 Javascript
JavaScript实现斗地主游戏的思路
2016/02/29 Javascript
JavaScript中的对象和原型(一)
2016/08/12 Javascript
angularjs2中父子组件的数据传递的实例代码
2017/07/05 Javascript
EasyUI的TreeGrid的过滤功能的解决思路
2017/08/08 Javascript
详解ES6之async+await 同步/异步方案
2017/09/19 Javascript
使用Vue组件实现一个简单弹窗效果
2018/04/23 Javascript
微信小程序如何引用外部js,外部样式,公共页面模板
2019/07/23 Javascript
JavaScript 中的执行上下文和执行栈实例讲解
2021/02/25 Javascript
通过5个知识点轻松搞定Python的作用域
2016/09/09 Python
python实现括号匹配的思路详解
2018/08/23 Python
部署Django到阿里云服务器教程示例
2020/06/03 Python
基于opencv的selenium滑动验证码的实现
2020/07/24 Python
德国知名健康零食网上商店:Seeberger
2017/07/27 全球购物
eVitamins日本:在线购买折扣维生素、补品和草药
2019/04/04 全球购物
可口可乐唇膏:Lip Smackers
2019/08/27 全球购物
伊莱克斯(Electrolux)俄罗斯网上商店:瑞典家用电器品牌
2021/01/23 全球购物
Unix控制后台进程都有哪些进程
2016/09/22 面试题
会计自我鉴定
2013/11/02 职场文书
建筑工程技术应届生求职信
2013/11/17 职场文书
项目专员岗位职责
2013/12/04 职场文书
区域销售经理职责
2013/12/22 职场文书
党员民主生活会材料
2014/12/15 职场文书
项目投资意向书范本
2015/05/09 职场文书
2015年园林绿化工作总结
2015/05/23 职场文书
Python基础详解之描述符
2021/04/28 Python
深入探讨opencv图像矫正算法实战
2021/05/21 Python