PHP采集类snoopy详细介绍(snoopy使用教程)


Posted in PHP onJune 19, 2014

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。

Snoopy的一些特点:
抓取网页的内容 fetch
抓取网页的文本内容 (去除HTML标签) fetchtext
抓取网页的链接,表单 fetchlinks fetchform
支持代理主机
支持基本的用户名/密码验证
支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
支持浏览器重定向,并能控制重定向深度
能把网页中的链接扩展成高质量的url(默认)
提交数据并且获取返回值
支持跟踪HTML框架
支持重定向的时候传递cookies
要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择,

Snoopy类方法及示例:

fetch($URI)
这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在 $this->results 中。
如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。

fetchtext($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

fetchform($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

fetchlinks($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

submit($URI,$formvars)
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

submittext($URI,$formvars)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

submitlinks($URI)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

Snoopy采集类属性: (默认值在括号里)

$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+) 设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

下面是一个示例:

include "Snoopy.class.php";

 $snoopy = new Snoopy;

  

 $snoopy->proxy_host = "https://3water.com";

 $snoopy->proxy_port = "80";

  

 $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";

 $snoopy->referer = "https://3water.com";

  

 $snoopy->cookies["SessionID"] = 238472834723489l;

 $snoopy->cookies["favoriteColor"] = "RED";

  

 $snoopy->rawheaders["Pragma"] = "no-cache";

  

 $snoopy->maxredirs = 2;

 $snoopy->offsiteok = false;

 $snoopy->expandlinks = false;

  

 $snoopy->user = "joe";

 $snoopy->pass = "bloe";

  

 if($snoopy->fetchtext("https://3water.com"))

 {

 echo "<PRE>".htmlspecialchars($snoopy->results)."</PRE>\n";

 }

 else

 echo "error fetching document: ".$snoopy->error."\n";

获取指定url内容

<?php

 $url = "https://3water.com";

 include("snoopy.php");

 $snoopy = new Snoopy;

 $snoopy->fetch($url); //获取所有内容

 echo $snoopy->results; //显示结果

 //可选以下

 $snoopy->fetchtext //获取文本内容(去掉html代码)

 $snoopy->fetchlinks //获取链接

 $snoopy->fetchform  //获取表单

 ?>

表单提交

<?php

$formvars["username"] = "admin";

$formvars["pwd"] = "admin";

$action = "https://3water.com";//</a>表单提交地址

$snoopy->submit($action,$formvars);//$formvars为提交的数组

echo $snoopy->results; //获取表单提交后的 返回的结果

//可选以下

$snoopy->submittext; //提交后只返回 去除html的 文本

$snoopy->submitlinks;//提交后只返回 链接

?>

既然已经提交的表单 那就可以做很多事情 接下来我们来伪装ip,伪装浏览器

伪装浏览器

<?php

$formvars["username"] = "lanfengye";

$formvars["pwd"] = "lanfengye";

$action = "https://3water.com";

include "snoopy.php";

$snoopy = new Snoopy;

$snoopy->cookies["PHPSESSID"] = 'fc106b1918bd522cc863f36890e6fff7'; //伪装sessionid

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器

$snoopy->referer = "https://3water.com"; //伪装来源页地址 http_referer

$snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息

$snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.101"; //伪装ip

$snoopy->submit($action,$formvars);

echo $snoopy->results;

?>

原来我们可以伪装session 伪装浏览器 ,伪装ip, haha 可以做很多事情了。
例如 带验证码,验证ip 投票, 可以不停的投。
ps:这里伪装ip ,其实是伪装http头, 所以一般的通过 REMOTE_ADDR 获取的ip是伪装不了,
反而那些通过http头来获取ip的(可以防止代理的那种) 就可以自己来制造ip。
关于如何验证码 ,简单说下:
首先用普通的浏览器, 查看页面 , 找到验证码所对应的sessionid,
同时记下sessionid和验证码值,
接下来就用snoopy去伪造 。
原理:由于是同一个sessionid 所以取得的验证码和第一次输入的是一样的。

有时我们可能需要伪造更多的东西,snoopy完全为我们想到了

<?php
$snoopy->proxy_host = "https://3water.com";
$snoopy->proxy_port = "8080"; //使用代理
$snoopy->maxredirs = 2; //重定向次数
$snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到
// 例如链接为 /images/taoav.gif 可改为它的全链接 <a href="https://3water.com/images/taoav.gif">https://3water.com/images/taoav.gif</a>
$snoopy->maxframes = 5 //允许的最大框架数
//注意抓取框架的时候 $snoopy->results 返回的是一个数组
$snoopy->error //返回报错信息
?>

PHP 相关文章推荐
PHP 编程的 5个良好习惯
Feb 20 PHP
PHP5 操作MySQL数据库基础代码
Sep 29 PHP
php中几种常见安全设置详解
Apr 06 PHP
php编写的简单页面跳转功能实现代码
Nov 27 PHP
php+xml实现在线英文词典之添加词条的方法
Jan 23 PHP
PHP JSON格式的中文显示问题解决方法
Apr 09 PHP
详解PHP中的PDO类
Jul 06 PHP
ThinkPHP模型详解
Jul 27 PHP
MAC下通过改apache配置文件切换php多版本的方法
Apr 26 PHP
PHP实现的数组和XML文件相互转换功能示例
Mar 15 PHP
基于PHP实现微信小程序客服消息功能
Aug 12 PHP
Thinkphp5 如何隐藏入口文件index.php(URL重写)
Oct 16 PHP
PHP采集类Snoopy抓取图片实例
Jun 19 #PHP
PHP基于GD库的缩略图生成代码(支持jpg,gif,png格式)
Jun 19 #PHP
PHP mkdir()无写权限的问题解决方法
Jun 19 #PHP
PHP获取文件的MD5值并判断是否被修改的例子
Jun 19 #PHP
PHP中strlen()和mb_strlen()的区别浅析
Jun 19 #PHP
php对包含html标签的字符串进行截取的函数分享
Jun 19 #PHP
php解决抢购秒杀抽奖等大流量并发入库导致的库存负数的问题
Jun 19 #PHP
You might like
php下防止单引号,双引号在接受页面转义的设置方法
2008/09/25 PHP
PHP注释实例技巧
2008/10/03 PHP
PHP面向对象程序设计之构造方法和析构方法详解
2019/06/13 PHP
JQuery的read函数与js的onload不同方式实现
2013/03/18 Javascript
纯js代码制作的网页时钟特效【附实例】
2016/03/30 Javascript
AngularJS基础 ng-open 指令简单实例
2016/08/02 Javascript
移动端js触摸事件详解
2016/09/18 Javascript
nodejs简单实现操作arduino
2016/09/25 NodeJs
jQuery Dialog 打开时自动聚焦的解决方法(两种方法)
2016/11/24 Javascript
微信小程序tabBar用法实例详解
2017/12/04 Javascript
详解Vue 事件修饰符capture 的使用
2017/12/29 Javascript
使用JavaScript实现node.js中的path.join方法
2018/08/12 Javascript
vue 组件中使用 transition 和 transition-group实现过渡动画
2019/07/09 Javascript
vue-router之实现导航切换过渡动画效果
2019/10/31 Javascript
JS一次前端面试经历记录
2020/03/19 Javascript
JS时间戳与日期格式互相转换的简单方法示例
2021/01/30 Javascript
理解python正则表达式
2016/01/15 Python
python实现list由于numpy array的转换
2018/04/04 Python
Python中调用其他程序的方式详解
2019/08/06 Python
django项目中使用手机号登录的实例代码
2019/08/15 Python
PyTorch: 梯度下降及反向传播的实例详解
2019/08/20 Python
PYQT5开启多个线程和窗口,多线程与多窗口的交互实例
2019/12/13 Python
pycharm 使用anaconda为默认环境的操作
2021/02/05 Python
css3实现针线缝合效果(图解步骤)
2013/02/04 HTML / CSS
详解CSS3+JS完美实现放大镜模式
2020/12/03 HTML / CSS
跑步、骑行和铁人三项的高性能眼镜和服装:ROKA
2018/07/06 全球购物
美国儿童服装、家具和玩具精品店:Maisonette
2019/11/24 全球购物
金融专业毕业生推荐信
2013/11/26 职场文书
《恐龙》教学反思
2014/04/27 职场文书
会计岗位说明书
2014/07/29 职场文书
个人委托书怎么写
2014/09/17 职场文书
2014年大堂经理工作总结
2014/11/21 职场文书
个人先进材料范文
2014/12/30 职场文书
咖啡厅里的创业计划书
2019/08/21 职场文书
CSS3 实现NES游戏机的示例代码
2021/04/21 HTML / CSS
船舶调度指挥系统——助力智慧海事
2022/02/18 无线电