snoopy 强大的PHP采集类使用实例代码


Posted in PHP onDecember 09, 2010

下载地址: https://3water.com/codes/33397.html

Snoopy的一些特点:

1抓取网页的内容 fetch
2 抓取网页的文本内容 (去除HTML标签) fetchtext
3抓取网页的链接,表单 fetchlinks fetchform
4 支持代理主机
5支持基本的用户名/密码验证
6 支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
7支持浏览器重定向,并能控制重定向深度
8能把网页中的链接扩展成高质量的url(默认)
9提交数据并且获取返回值
10 支持跟踪HTML框架
11支持重定向的时候传递cookies
要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择,

类方法:

fetch($URI)
———?

这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在 $this->results 中。
如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。

fetchtext($URI)
—————

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

fetchform($URI)
—————

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

fetchlinks($URI)
—————-

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

submit($URI,$formvars)
———————-

本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

submittext($URI,$formvars)
————————?

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

submitlinks($URI)
—————-

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

类属性: (缺省值在括号里)

$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies, 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)
设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

以下是demo

include "Snoopy.class.php"; 
$snoopy = new Snoopy; 
$snoopy->proxy_host = "https://3water.com"; 
$snoopy->proxy_port = "80"; 
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; 
$snoopy->referer = "https://3water.com"; 
$snoopy->cookies["SessionID"] = 238472834723489l; 
$snoopy->cookies["favoriteColor"] = "RED"; 
$snoopy->rawheaders["Pragma"] = "no-cache"; 
$snoopy->maxredirs = 2; 
$snoopy->offsiteok = false; 
$snoopy->expandlinks = false; 
$snoopy->user = "joe"; 
$snoopy->pass = "bloe"; 
if($snoopy->fetchtext("https://3water.com")) 
{ 
echo "<PRE>".htmlspecialchars($snoopy->results)."</PRE>\n"; 
} 
else 
echo "error fetching document: ".$snoopy->error."\n";

以下是一些代码片段:
1、获取指定url内容
<? 
$url = "https://3water.com"; 
include("snoopy.php"); 
$snoopy = new Snoopy; 
$snoopy->fetch($url); //获取所有内容 
echo $snoopy->results; //显示结果 
//可选以下 
$snoopy->fetchtext //获取文本内容(去掉html代码) 
$snoopy->fetchlinks //获取链接 
$snoopy->fetchform //获取表单 
?>

2 表单提交
<?php 
$formvars["username"] = "admin"; 
$formvars["pwd"] = "admin"; 
$action = "https://3water.com";//</a>表单提交地址 
$snoopy->submit($action,$formvars);//$formvars为提交的数组 
echo $snoopy->results; //获取表单提交后的 返回的结果 
//可选以下 
$snoopy->submittext; //提交后只返回 去除html的 文本 
$snoopy->submitlinks;//提交后只返回 链接 
?>

既然已经提交的表单 那就可以做很多事情 接下来我们来伪装ip,伪装浏览器
3 伪装
<?php 
$formvars["username"] = "admin"; 
$formvars["pwd"] = "admin"; 
$action = "https://3water.com"; 
include "snoopy.php"; 
$snoopy = new Snoopy; 
$snoopy->cookies["PHPSESSID"] = 'fc106b1918bd522cc863f36890e6fff7'; //伪装sessionid 
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器 
$snoopy->referer = https://3water.com; //伪装来源页地址 http_referer 
$snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息 
$snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.101"; //伪装ip 
$snoopy->submit($action,$formvars); 
echo $snoopy->results; 
?>

原来我们可以伪装session 伪装浏览器 ,伪装ip, haha 可以做很多事情了。
例如 带验证码,验证ip 投票, 可以不停的投。
ps:这里伪装ip ,其实是伪装http头, 所以一般的通过 REMOTE_ADDR 获取的ip是伪装不了,
反而那些通过http头来获取ip的(可以防止代理的那种) 就可以自己来制造ip。
关于如何验证码 ,简单说下:
首先用普通的浏览器, 查看页面 , 找到验证码所对应的sessionid,
同时记下sessionid和验证码值,
接下来就用snoopy去伪造 。
原理:由于是同一个sessionid 所以取得的验证码和第一次输入的是一样的。
4 有时我们可能需要伪造更多的东西,snoopy完全为我们想到了
<?php 
$snoopy->proxy_host = "https://3water.com"; 
$snoopy->proxy_port = "8080"; //使用代理 
$snoopy->maxredirs = 2; //重定向次数 
$snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到 
// 例如链接为 /images/taoav.gif 可改为它的全链接 <a href="https://3water.com/images/taoav.gif">https://3water.com/images/taoav.gif</a> 
$snoopy->maxframes = 5 //允许的最大框架数 
//注意抓取框架的时候 $snoopy->results 返回的是一个数组 
$snoopy->error //返回报错信息 
?>
PHP 相关文章推荐
玩转图像函数库―常见图形操作
Sep 03 PHP
PHP文件读写操作之文件读取方法详解
Jan 13 PHP
php switch语句多个值匹配同一代码块应用示例
Jul 29 PHP
PHP获取ip对应地区和使用网络类型的方法
Mar 11 PHP
php简单实现快速排序的方法
Apr 04 PHP
PHP SPL标准库之文件操作(SplFileInfo和SplFileObject)实例
May 11 PHP
php实现html标签闭合检测与修复方法
Jul 09 PHP
PHP判断手机是IOS还是Android
Dec 09 PHP
什么是OneThink oneThink后台添加插件步骤
Apr 13 PHP
用PHP写的一个冒泡排序法的函数简单实例
May 26 PHP
Yii2实现跨mysql数据库关联查询排序功能代码
Feb 10 PHP
MacOS下PHP7.1升级到PHP7.4.15的方法
Feb 22 PHP
PHPwind整合最土系统用户同步登录实现方法
Dec 08 #PHP
php iconv() : Detected an illegal character in input string
Dec 05 #PHP
php printf输出格式使用说明
Dec 05 #PHP
PHP执行zip与rar解压缩方法实现代码
Dec 05 #PHP
smarty模板嵌套之include与fetch性能测试
Dec 05 #PHP
php 学习资料零碎东西
Dec 04 #PHP
PHP访问MYSQL数据库封装类(附函数说明)
Dec 04 #PHP
You might like
PDO::inTransaction讲解
2019/01/28 PHP
linux mint下安装phpstorm2020包括JDK部分的教程详解
2020/09/17 PHP
动态改变textbox的宽高的js
2006/10/26 Javascript
ExtJS4 Grid改变单元格背景颜色及Column render学习
2013/02/06 Javascript
JS验证身份证有效性示例
2013/10/11 Javascript
js jquery ajax的几种用法总结(及优缺点介绍)
2014/01/28 Javascript
jquery实现的Banner广告收缩效果代码
2015/09/02 Javascript
基于JavaScript实现根据手机定位获取当前具体位置(X省X市X县X街道X号)
2015/12/29 Javascript
有关suggest快速删除后仍然出现下拉列表的bug问题
2016/12/02 Javascript
整理关于Bootstrap导航的慕课笔记
2017/03/29 Javascript
12条写出高质量JS代码的方法
2018/01/07 Javascript
富文本编辑器vue2-editor实现全屏功能
2019/05/26 Javascript
jQuery实现简单评论区功能
2020/10/26 jQuery
[26:40]DOTA2上海特级锦标赛A组资格赛#1 Secret VS MVP.Phx第一局
2016/02/25 DOTA
编写Python脚本来获取mp3文件tag信息的教程
2015/05/04 Python
Python中有趣在__call__函数
2015/06/21 Python
Python函数式编程指南(二):从函数开始
2015/06/24 Python
python中子类继承父类的__init__方法实例
2016/12/15 Python
matplotlib在python上绘制3D散点图实例详解
2017/12/09 Python
用python实现的线程池实例代码
2018/01/06 Python
Python读取图片为16进制表示简单代码
2018/01/19 Python
django模板加载静态文件的方法步骤
2019/03/01 Python
解决python中用matplotlib画多幅图时出现图形部分重叠的问题
2019/07/07 Python
Python完全识别验证码自动登录实例详解
2019/11/24 Python
python 解决Fatal error in launcher:错误问题
2020/05/21 Python
python爬取微博评论的实例讲解
2021/01/15 Python
香港家用健身器材、运动器材及健康美容仪器专门店:FitBoxx
2019/12/05 全球购物
护理个人求职信范文
2014/01/08 职场文书
车辆安全检查制度
2014/01/12 职场文书
创业大赛策划书
2014/03/01 职场文书
园林专业毕业生自荐信
2014/07/04 职场文书
幼儿园六一活动总结
2014/08/27 职场文书
乡镇镇长个人整改措施
2014/10/01 职场文书
大学生上课迟到检讨书
2014/10/15 职场文书
2014年居委会工作总结
2014/12/09 职场文书
解决vue $http的get和post请求跨域问题
2021/06/07 Vue.js