编程 PHP

深入php数据采集的详解

Posted in PHP onJune 02, 2013

这里介绍两个php采集能用到的好工具。一个是Snoopy，一个是simple_html_dom。采集还有很多方式（其实本质就2-3种，其他的都是衍生的），php自带了几个方法也能直接进行采集。但是，出于把懒惰进行到底的精神。我们还是可以通过这两个工具，让采集变得更简单。

网上有不少介绍Snoopy的，下面是别人翻译的Snoopy的SDK
//////////////////////////////////////////////////////////////
Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单。
Snoopy的一些特点:
1抓取网页的内容 fetch
2抓取网页的文本内容 (去除HTML标签) fetchtext
3抓取网页的链接，表单 fetchlinks fetchform
4支持代理主机
5支持基本的用户名/密码验证
6支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
7支持浏览器重定向，并能控制重定向深度
8能把网页中的链接扩展成高质量的url(默认)
9提交数据并且获取返回值
10支持跟踪HTML框架
11支持重定向的时候传递cookies
要求php4以上就可以了由于本身是php一个类无需扩支持服务器不支持curl时候的最好选择，
类方法:
fetch($URI)
———?
这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在 $this->results 中。
如果你正在抓取的是一个框架，Snoopy将会将每个框架追踪后存入数组中，然后存入 $this->results。
fetchtext($URI)
—————
本方法类似于fetch()，唯一不同的就是本方法会去除HTML标签和其他的无关数据，只返回网页中的文字内容。
fetchform($URI)
—————
本方法类似于fetch()，唯一不同的就是本方法会去除HTML标签和其他的无关数据，只返回网页中表单内容(form)。
fetchlinks($URI)
—————-
本方法类似于fetch()，唯一不同的就是本方法会去除HTML标签和其他的无关数据，只返回网页中链接(link)。
默认情况下，相对链接将自动补全，转换成完整的URL。
submit($URI,$formvars)
———————-
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。
submittext($URI,$formvars)
————————?
本方法类似于submit()，唯一不同的就是本方法会去除HTML标签和其他的无关数据，只返回登陆后网页中的文字内容。
submitlinks($URI)
—————-
本方法类似于submit()，唯一不同的就是本方法会去除HTML标签和其他的无关数据，只返回网页中链接(link)。
默认情况下，相对链接将自动补全，转换成完整的URL。
类属性: (缺省值在括号里)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机，如果有的话
$proxy_port 使用的代理主机端口，如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息，如果有的话
$cookies cookies，如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数， 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)
设置为0为没有超时
$timed_out 如果一次读取操作超时了，本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false
以下是demo

include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "www.7767.cn";
$snoopy->proxy_port = "8080";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.7767.cn/";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
 $snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
 $snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.7767.cn"))
{
   echo "<PRE>".htmlspecialchars($snoopy->results)."</PRE>\n";
}
else
echo "error fetching document: ".$snoopy->error."\n";

//////////////////////////////////////////////////////////////
Snoopy的特点是“大”和“全”，一个fetch什么都采到了，可以作为采集的第一步。接下来就需要用simple_html_dom来细细的把想要的部分，扣出来。当然，如果你特别特别擅长正则，而且又钟爱正则，你也可以用正则去匹配抓取。

simple_html_dom其实是一个dom解析的过程。php内部也提供了一些解析的方法，但是这个simple_html_dom可以说做得比较专业，一个类，满足了很多你想要的功能。
////////////////////////////////////////////////////////////////
// 用一个URL或文件名，创建一个目标文档对象，也就是目标网页
$html = file_get_html ('http://www.7767.cn/' );
//$html = file_get_html ('test.htm' );
//用一个字符串作为一个目标网页。你可以通过Snoopy获取页面，然后再拿到这里来处理
$myhtml = str_get_html ('<html><body>Hello!</body></html>' );
// 找到所有的图片，返回的是数组
foreach($html->find ('img' ) as $element)
echo $element->src . '<br>' ;
// 找到所有的链接
foreach($html->find ('a' ) as $element)
echo $element->href . '<br>' ;

find方法很好用，通常它返回的是一个包含对象的数组。查找目标元素的时候可以通过class或者id，或者其他属性获取目标字符串。

//通过目标div的class属性，查找div，find方法中第二个参数是返回的那个数组中的第几个。从0开始是第一个
$target_div = $html->find ('div.targetclass',0 );
//查看结果是否是你想要的，直接echo就可以了
echo $target_div;

//比较关键的一点是，这个采集对象创建完后，一定要销毁掉，否则php页面有可能会“卡”上30秒左右，这个取决于你服务器的那个时间限制。销毁的方法是：
$html->clear();
unset($html);
本人认为simple_html_dom比较优秀的地方就是，把采集控制得像JS一样容易。在下面提供的下载包中有英文的手册
simplehtmldom_1_11/simplehtmldom/manual/manual.htm

array$e->getAllAttributes ()	array$e->attr
string$e->getAttribute ( $name )	string$e->attribute
void$e->setAttribute ( $name, $value )	void$value = $e->attribute
bool$e->hasAttribute ( $name )	boolisset($e->attribute )
void$e->removeAttribute ( $name )	void$e->attribute = null
element$e->getElementById ( $id )	mixed$e->find ( "#$id", 0 )
mixed$e->getElementsById ( $id [,$index] )	mixed$e->find ( "#$id" [, int $index] )
element$e->getElementByTagName ($name )	mixed$e->find ( $name, 0 )
mixed$e->getElementsByTagName ( $name [, $index] )	mixed$e->find ( $name [, int $index] )
element$e->parentNode ()	element$e->parent ()
mixed$e->childNodes ( [$index] )	mixed$e->children ( [int $index] )
element$e->firstChild ()	element$e->first_child ()
element$e->lastChild ()	element$e->last_child ()
element$e->nextSibling ()	element$e->next_sibling ()
element$e->previousSibling ()	element$e->prev_sibling ()

深入php数据采集的详解

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

PHP 全角转半角实现代码

May 16 PHP

一个php短网址的生成代码(仿微博短网址)

May 07 PHP

Smarty模板学习笔记之Smarty简介

May 20 PHP

9个实用的PHP代码片段分享

Jan 22 PHP

分享下php5类中三种数据类型的区别

Jan 26 PHP

php简单实现查询数据库返回json数据

Apr 16 PHP

ThinkPHP中html:list标签用法分析

Jan 09 PHP

PHP的PDO事务与自动提交

Jan 24 PHP

PHP随机数函数rand()与mt_rand()的讲解

Mar 25 PHP

laravel-admin的图片删除实例

Sep 30 PHP

Laravel登录失败次数限制的实现方法

Aug 26 PHP

php去除deprecated的实例方法

Nov 17 PHP

基于php下载文件的详解

Jun 02 #PHP

用PHP实现浏览器点击下载TXT文档的方法详解

Jun 02 #PHP

优化PHP代码技巧的小结

Jun 02 #PHP

PHP无限分类(树形类)的深入分析

Jun 02 #PHP

基于php无限分类的深入理解

Jun 02 #PHP

php curl的深入解析

Jun 02 #PHP

Window 7/XP 安装Apache 2.4与PHP 5.4 的过程详解

Jun 02 #PHP

You might like

php方法调用模式与函数调用模式简例

2011/09/20 PHP

php使用base64加密解密图片示例分享

2014/01/20 PHP

discuz目录文件资料汇总

2014/12/30 PHP

php限制ip地址范围的方法

2015/03/31 PHP

PHP合并数组+号和array_merge的区别

2015/06/25 PHP

PHP中list方法用法示例

2016/12/01 PHP

PHP网页安全认证的实例详解

2017/09/28 PHP

php微信公众号开发之秒杀

2018/10/20 PHP

laravel 获取某个查询的查询SQL语句方法

2019/10/12 PHP

Javascript的getYear、getFullYear、getUTCFullYear异同分享

2011/11/30 Javascript

javascript时区函数介绍

2012/09/14 Javascript

jquery选择器、属性设置用法经验总结

2013/09/08 Javascript

鼠标划过实现延迟加载并隐藏层的js代码

2013/10/11 Javascript

js去除输入框中所有的空格和禁止输入空格的方法

2014/06/09 Javascript

JQuery中的html()、text()、val()区别示例介绍

2014/09/01 Javascript

node.js中的favicon.ico请求问题处理

2014/12/15 Javascript

jQuery循环动画与获取组件尺寸的方法

2015/02/02 Javascript

webpack+vue.js实现组件化详解

2016/10/12 Javascript

微信小程序 modal弹框组件详解

2016/10/27 Javascript

JS判断两个对象内容是否相等的方法示例

2017/04/10 Javascript

浅谈箭头函数写法在ReactJs中的使用

2017/08/22 Javascript

详解性能更优越的小程序图片懒加载方式

2018/07/18 Javascript

js canvas实现二维码和图片合成的海报

2020/11/19 Javascript

layui实现鼠标移动到单元格上显示数据的方法

2019/09/11 Javascript

基于javascript处理二进制图片流过程详解

2020/06/08 Javascript

JavaScript交换变量常用4种方法解析

2020/09/02 Javascript

Python 使用os.remove删除文件夹时报错的解决方法

2017/01/13 Python

Python Web框架之Django框架Model基础详解

2019/08/16 Python

python基于plotly实现画饼状图代码实例

2019/12/16 Python

什么是重载？CTS、CLS和CLR分别做何解释

2012/05/06 面试题

八年级音乐教学反思

2014/01/09 职场文书

挖掘机司机岗位职责

2014/02/12 职场文书

流动人口婚育证明

2014/10/19 职场文书

学校党支部公开承诺书

2015/04/30 职场文书

2019银行竞聘书

2019/06/21 职场文书

我收到了德劲DE1107

2022/04/05 无线电