PHP 采集程序原理分析篇


Posted in PHP onMarch 05, 2010

苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。
采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。

首先确定一个采集页,一般就是列表面了。这里目标是:https://3water.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。

有列表页了,第一步先打开它,把它的内容纳入到我们的程序中来。一般用fopen或是file_get_contents这两个函数,我们这里用fopen作例子。怎么打开它呢?很简单:$source=fopen("https://3water.com/article/11/index.htm",'r');实际上已经把内容纳入到我们的程序中来了。注意得到的$source是一个资源,不是可处理的文本,所以再用函数fread将内容读到一个变量中,这次就是真正的可编辑的文本了。例子:
$content=fread($source,99999);后面的数字表示字节数,填个大的就行。你用file_put_contents将$content写入到一个文本文件,可以看出里面的内容其实就是网页的源码。得到了网页的源码,我们就要分析里面的文章链接地址,这里要用到正则表达式了,[推荐正则表达式教程(https://3water.com/article/7/all/545.1.htm)]。通过查看源代码,我们可以看到里面文章的链接地址全是这个样子<div class="in_arttitle"><a href="https://3water.com/article/10/all/273.1.htm">

将数据库连接代码封装在函数里,在需要读取时调用..</a>
我们就可以写正则表达式了。$count=preg_match_all("/<div class=\"in_arttitle\"><a\shref=\"(.+?)\">(.+?)<\/a>/",$content,$art_list);
其中数组$art_list[1][$s]里面包含的就是某个文章的链接地址。而$art_list[2][$s]包含的就是某一文章的标题。到了这一步就可以算成功了一半了。
接着用for循环依次打每个链接,然后像取得标题一样的方法取得内容即可。以上这些和我在网上找的教程都差不多,但是到了这个for循环网上的教程可就差劲,还没找到一篇可以说清这个事的文章,刚开始我是用js来帮助循环的,还是用实例说吧,刚开始我是这样做的:
for($i=0;$i<20;4i++ {
中间就是采集内容的部分了,省略了
采集了一页,肯定要采集再一页啊
可是再用fopen打开链接时就不行了。请求失败什么的,用js也不行,最后才知道要用这句echo "<META HTTP-EQUIV=REFRESH CONTENT='0;URL=aa.php?id=1'>";其中aa.php就是我们的程序的文件名, id后面的数字就可以帮助我们实现循环,采集多个页面。这就是能真正循环起来的关键
}
脑子有点难受,写得有点乱,将就着看吧,在高手看来这可能没什么大不了的,可是对于我等菜鸟来说,实在是很有帮助。

PHP 相关文章推荐
php中用文本文件做数据库的实现方法
Mar 27 PHP
在MongoDB中模拟Auto Increment的php代码
Mar 06 PHP
修改php.ini不生效问题解决方法(上传大于8M的文件)
Jun 14 PHP
php随机显示图片的简单示例
Feb 15 PHP
最准确的php截取字符串长度函数
Oct 29 PHP
PHP+redis实现添加处理投票的方法
Nov 14 PHP
使用正则去除php代码中的注释方法
Nov 03 PHP
thinkphp下MySQL数据库读写分离代码剖析
Apr 18 PHP
简单实现php上传文件功能
Sep 21 PHP
基于Laravel实现的用户动态模块开发
Sep 21 PHP
Laravel如何自定义command命令浅析
Mar 23 PHP
PHP实现Snowflake生成分布式唯一ID的方法示例
Aug 30 PHP
PHP 一个页面执行时间类代码
Mar 05 #PHP
一步一步学习PHP(8) php 数组
Mar 05 #PHP
一步一步学习PHP(7) php 字符串相关应用
Mar 05 #PHP
PHP 创建文件(文件夹)以及目录操作代码
Mar 04 #PHP
php &amp;&amp; 逻辑与运算符使用说明
Mar 04 #PHP
PHP MVC模式在网站架构中的实现分析
Mar 04 #PHP
通用PHP动态生成静态HTML网页的代码
Mar 04 #PHP
You might like
那些年我们错过的魔术方法(Magic Methods)
2014/01/14 PHP
php判断手机访问还是电脑访问示例分享
2014/01/20 PHP
php跨站攻击实例分析
2014/10/28 PHP
PHP基于关联数组20行代码搞定约瑟夫问题示例
2017/11/07 PHP
改善你的jQuery的25个步骤 千倍级效率提升
2010/02/11 Javascript
jQuery之浮动窗口实现代码(两种方法)
2010/09/08 Javascript
JS判断当前日期是否大于某个日期的实现代码
2012/09/02 Javascript
js快速排序的实现代码
2013/12/08 Javascript
JS与jQuery遍历Table所有单元格内容的方法
2015/12/07 Javascript
jQuery删除当前节点元素
2016/12/07 Javascript
Vue学习笔记进阶篇之函数化组件解析
2017/07/21 Javascript
vue单页面打包文件大?首次加载慢?nginx带你飞,从7.5M到1.3M蜕变过程(推荐)
2018/01/16 Javascript
vue webpack打包后图片路径错误的完美解决方法
2018/12/07 Javascript
浅谈layui框架自带分页和表格重载的接口解析问题
2019/09/11 Javascript
Javascript 关于基本类型和引用类型的个人理解
2019/11/01 Javascript
vue改变循环遍历后的数据实例
2019/11/07 Javascript
JavaScript语句错误throw、try及catch实例解析
2020/08/18 Javascript
ant design vue嵌套表格及表格内部编辑的用法说明
2020/10/28 Javascript
Vue中强制组件重新渲染的正确方法
2021/01/03 Vue.js
python实现监控windows服务并自动启动服务示例
2014/04/17 Python
Python实现调度算法代码详解
2017/12/01 Python
Python将list中的string批量转化成int/float的方法
2018/06/26 Python
Python实现简单层次聚类算法以及可视化
2019/03/18 Python
PyQt5 实现字体大小自适应分辨率的方法
2019/06/18 Python
django基础学习之send_mail功能
2019/08/07 Python
python 视频逐帧保存为图片的完整实例
2019/12/10 Python
如何在python中处理配置文件代码实例
2020/09/27 Python
Python getsizeof()和getsize()区分详解
2020/11/20 Python
UDP协议功能
2013/01/06 面试题
工程地质勘察专业大学生求职信
2013/10/13 职场文书
酒吧创业计划书
2014/01/18 职场文书
大学优秀班集体申报材料
2014/05/23 职场文书
小学教学工作总结2015
2015/05/13 职场文书
欢送会主持词
2015/07/01 职场文书
导游词之云南省玉龙雪山
2019/12/19 职场文书
Python+Tkinter打造签名设计工具
2022/04/01 Python