PHP采集类snoopy详细介绍(snoopy使用教程)


Posted in PHP onJune 19, 2014

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。

Snoopy的一些特点:
抓取网页的内容 fetch
抓取网页的文本内容 (去除HTML标签) fetchtext
抓取网页的链接,表单 fetchlinks fetchform
支持代理主机
支持基本的用户名/密码验证
支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
支持浏览器重定向,并能控制重定向深度
能把网页中的链接扩展成高质量的url(默认)
提交数据并且获取返回值
支持跟踪HTML框架
支持重定向的时候传递cookies
要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择,

Snoopy类方法及示例:

fetch($URI)
这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在 $this->results 中。
如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。

fetchtext($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

fetchform($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

fetchlinks($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

submit($URI,$formvars)
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

submittext($URI,$formvars)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

submitlinks($URI)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

Snoopy采集类属性: (默认值在括号里)

$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+) 设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

下面是一个示例:

include "Snoopy.class.php";

 $snoopy = new Snoopy;

  

 $snoopy->proxy_host = "https://3water.com";

 $snoopy->proxy_port = "80";

  

 $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";

 $snoopy->referer = "https://3water.com";

  

 $snoopy->cookies["SessionID"] = 238472834723489l;

 $snoopy->cookies["favoriteColor"] = "RED";

  

 $snoopy->rawheaders["Pragma"] = "no-cache";

  

 $snoopy->maxredirs = 2;

 $snoopy->offsiteok = false;

 $snoopy->expandlinks = false;

  

 $snoopy->user = "joe";

 $snoopy->pass = "bloe";

  

 if($snoopy->fetchtext("https://3water.com"))

 {

 echo "<PRE>".htmlspecialchars($snoopy->results)."</PRE>\n";

 }

 else

 echo "error fetching document: ".$snoopy->error."\n";

获取指定url内容

<?php

 $url = "https://3water.com";

 include("snoopy.php");

 $snoopy = new Snoopy;

 $snoopy->fetch($url); //获取所有内容

 echo $snoopy->results; //显示结果

 //可选以下

 $snoopy->fetchtext //获取文本内容(去掉html代码)

 $snoopy->fetchlinks //获取链接

 $snoopy->fetchform  //获取表单

 ?>

表单提交

<?php

$formvars["username"] = "admin";

$formvars["pwd"] = "admin";

$action = "https://3water.com";//</a>表单提交地址

$snoopy->submit($action,$formvars);//$formvars为提交的数组

echo $snoopy->results; //获取表单提交后的 返回的结果

//可选以下

$snoopy->submittext; //提交后只返回 去除html的 文本

$snoopy->submitlinks;//提交后只返回 链接

?>

既然已经提交的表单 那就可以做很多事情 接下来我们来伪装ip,伪装浏览器

伪装浏览器

<?php

$formvars["username"] = "lanfengye";

$formvars["pwd"] = "lanfengye";

$action = "https://3water.com";

include "snoopy.php";

$snoopy = new Snoopy;

$snoopy->cookies["PHPSESSID"] = 'fc106b1918bd522cc863f36890e6fff7'; //伪装sessionid

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器

$snoopy->referer = "https://3water.com"; //伪装来源页地址 http_referer

$snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息

$snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.101"; //伪装ip

$snoopy->submit($action,$formvars);

echo $snoopy->results;

?>

原来我们可以伪装session 伪装浏览器 ,伪装ip, haha 可以做很多事情了。
例如 带验证码,验证ip 投票, 可以不停的投。
ps:这里伪装ip ,其实是伪装http头, 所以一般的通过 REMOTE_ADDR 获取的ip是伪装不了,
反而那些通过http头来获取ip的(可以防止代理的那种) 就可以自己来制造ip。
关于如何验证码 ,简单说下:
首先用普通的浏览器, 查看页面 , 找到验证码所对应的sessionid,
同时记下sessionid和验证码值,
接下来就用snoopy去伪造 。
原理:由于是同一个sessionid 所以取得的验证码和第一次输入的是一样的。

有时我们可能需要伪造更多的东西,snoopy完全为我们想到了

<?php
$snoopy->proxy_host = "https://3water.com";
$snoopy->proxy_port = "8080"; //使用代理
$snoopy->maxredirs = 2; //重定向次数
$snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到
// 例如链接为 /images/taoav.gif 可改为它的全链接 <a href="https://3water.com/images/taoav.gif">https://3water.com/images/taoav.gif</a>
$snoopy->maxframes = 5 //允许的最大框架数
//注意抓取框架的时候 $snoopy->results 返回的是一个数组
$snoopy->error //返回报错信息
?>

PHP 相关文章推荐
dedecms后台验证码总提示错误的解决方法
Mar 21 PHP
php中session_unset与session_destroy的区别分析
Jun 16 PHP
与文件上传有关的php配置参数总结
Jun 14 PHP
php+ajax制作无刷新留言板
Oct 27 PHP
详解PHP的Yii框架中自带的前端资源包的使用
Mar 31 PHP
PHP入门教程之自定义函数用法详解(创建,调用,变量,参数,返回值等)
Sep 11 PHP
thinkPHP中钩子的两种配置调用方法详解
Nov 11 PHP
Yii 2.0在Grid中格式化时间方法示例
Jun 06 PHP
php通过header发送自定义数据方法
Jan 18 PHP
PHP操作Redis数据库常用方法示例
Aug 25 PHP
PHP实现微信退款功能
Oct 02 PHP
详解php命令注入攻击
Apr 06 PHP
PHP采集类Snoopy抓取图片实例
Jun 19 #PHP
PHP基于GD库的缩略图生成代码(支持jpg,gif,png格式)
Jun 19 #PHP
PHP mkdir()无写权限的问题解决方法
Jun 19 #PHP
PHP获取文件的MD5值并判断是否被修改的例子
Jun 19 #PHP
PHP中strlen()和mb_strlen()的区别浅析
Jun 19 #PHP
php对包含html标签的字符串进行截取的函数分享
Jun 19 #PHP
php解决抢购秒杀抽奖等大流量并发入库导致的库存负数的问题
Jun 19 #PHP
You might like
phpmyadmin 3.4 空密码登录的实现方法
2010/05/29 PHP
解决PHP在DOS命令行下却无法链接MySQL的技术笔记
2010/12/29 PHP
PHP中::、-&amp;gt;、self、$this几种操作符的区别介绍
2013/04/24 PHP
最常用的8款PHP调试工具
2014/07/06 PHP
php格式输出文件var_export函数实例
2014/11/15 PHP
一个经典的PHP文件上传类分享
2014/11/18 PHP
使用GDB调试PHP代码,解决PHP代码死循环问题
2015/03/02 PHP
php实现的简易扫雷游戏实例
2015/07/09 PHP
告诉大家什么是JSON
2008/06/10 Javascript
JavaScript和CSS通过expression实现Table居中显示
2013/06/28 Javascript
深入理解JavaScript系列(49):Function模式(上篇)
2015/03/04 Javascript
Javascript中3个需要注意的运算符
2015/04/02 Javascript
javascript实现控制div颜色
2015/07/07 Javascript
复杂的javascript窗口分帧解析
2016/02/19 Javascript
实例讲解jQuery EasyUI tree中state属性慎用
2016/04/01 Javascript
Angularjs结合Bootstrap制作的一个TODO List
2016/08/18 Javascript
AngularJS实现Input格式化的方法
2016/11/07 Javascript
基于node.js的fs核心模块读写文件操作(实例讲解)
2017/09/10 Javascript
jQuery滑动效果实现方法分析
2018/09/05 jQuery
解决vue-cli脚手架打包后vendor文件过大的问题
2018/09/27 Javascript
原生js+css调节音量滑块
2020/01/15 Javascript
jQuery实现简单评论区功能
2020/10/26 jQuery
[40:05]LGD vs Winstrike 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
Windows下搭建python开发环境详细步骤
2020/07/20 Python
python字符串str和字节数组相互转化方法
2017/03/18 Python
Python读取文件内容的三种常用方式及效率比较
2017/10/07 Python
Python中支持向量机SVM的使用方法详解
2017/12/26 Python
Python+OpenCV采集本地摄像头的视频
2019/04/25 Python
浅谈Python3 numpy.ptp()最大值与最小值的差
2019/08/24 Python
python怎么删除缓存文件
2020/07/19 Python
Python2及Python3如何实现兼容切换
2020/09/01 Python
html5使用canvas实现跟随光标跳动的火焰效果
2014/01/07 HTML / CSS
init进程的作用
2012/04/12 面试题
内部类的定义、种类以及优点
2013/10/16 面试题
学校门卫岗位职责
2014/03/16 职场文书
关于奉献的演讲稿
2014/05/21 职场文书