初级的用php写的采集程序


Posted in PHP onMarch 16, 2007

可以先用这个采集然后在用帝国处理
<?php
####################################################################################
#作者:9elong
#网站:个人小站不值一提
#时间:2007-01-01
#声明:仅用于学习php之用。
#功能:采集单页面图片。
#说明:3个示范表单已经写好正则用来示范。没有任何功能说明,一切都在源代码里。附加论坛图片采集正则示范
####################################################################################
//把图片从信息页抓取下来的函数
function  getimg($url,$n,$key,$imgqian,$imgbiao,$titlekey)
{
                //$key图片地址正则
                //$titlekey图片标题正则
                //$imgqian图片地址前缀
                //$imgbiao图片地址特殊标识
                global  $n;
                global  $msg;
                global  $result;
                global  $imgadd;
                global  $title;
                $msg=file_get_contents($url);
                $key=str_replace("{图片地址}","(.+)",$key);
                $key="|".$key."|isU";
                preg_match_all($key,$msg,$result);
                $c=count($result[0]);
                for($i=0;$i<$c;$i++)
                {
                                $img=$result[0][$i]."<br>";
                                if(ereg("^.*".$imgbiao.".*$",$img))
                                {
                                                $img=str_replace($imgbiao,$imgqian.$imgbiao,$img);
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                //echo  "<img  src=".($img[0])."><br>";
                                                $n++;
                                }
                                elseif(ereg("^.*jpg.*$",$img))
                                {
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                if($img[0]!="")
                                                $n++;
                                }
                                unset($img);
                }                                
                                $titlekey=str_replace("{图片标题}","(.+)",$titlekey);
                                $titlekey="|".$titlekey."|isU";
                                preg_match($titlekey,$msg,$title);
                                //echo  $title[0];
                                return  $title;
                return  $msg;
                return  $result;
                return  $n;
                return  $imgadd;
}
####################################################################################
#不支持file_get_contents()函数可以使用下面的替换
#$i=0;
#$handle=@fopen($url,"rb");
#while  (!@feof($handle))
#{
#                $buffer[$i]=  @fgets($handle,  4096);
#                $i++;
#}
#fclose($handle);
#$msg=join("",$buffer);
####################################################################################
if($_GET['act']=="getimgadd"&&$_POST['url']!="")
{
                $url=$_POST['url'];
        getimg($url,"0",$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
####################################################################################
        //获取分页
                if($_POST['getpage']=="是")
        {
                                $_POST['page']=str_replace("{分页地址}","(.+)",$_POST['page']);
                $page="|".$_POST['page']."|isU";
                //echo  $page;
        preg_match_all($page,$msg,$presult);
                if($_POST['pc']==""||$_POST['pc']=="全部")
                        $pc=count($presult[0]);
                else
                                $pc=$_POST['pc'];
                if($_POST['pc']>count($presult[0]))
                                $pc=count($presult[0]);
                for($i=1;$i<$pc;$i++)
                {
                                $pageurl=$presult[0][$i];
                                //echo  $pageurl."<br>";
                                if(ereg("^.*[1-9].*$",$pageurl))
                                {
                                                $pageurl=str_replace("<a  href="","<a  href="".$_POST['imgqian'],$pageurl);
                                                $pagekey=str_replace("{关键地址}","(.+)",$_POST['pagekey']);
                                                $pagekey="|".$pagekey."|isU";
                                                preg_match($pagekey,$pageurl,$N3[$i]);
                                                //echo  ($N3[$i][0])."<br>";
                                                getimg($N3[$i][0],$n,$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
                                }
                }
        }
####################################################################################
        echo  "图片集〖".$title[1]."〗".$n."张图片被抓取<br><a  href='?act='>返回首页</a><br>";

                while(list($num,$var)=each($imgadd))
                {
                                if($_POST['showtype']=="图片")
                                {
                                                echo  "<img  src='".$var."'><br>";
                                }
                                else
                                echo  $var."<br>";
                }
####################################################################################
                //exit();
}
?>
实例1(信息页有分页,使用了简单的分页正则):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://www.pp132.com/n835c17.shtml'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<img{图片地址}>'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value='http://www.pp132.com/'><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='upload'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<H1  class=aTitle>{图片标题}</H1></DIV>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value='<a  href="{分页地址}shtml">.[0-9]'><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value='http://{关键地址}shtml'><br>
<SELECT  NAME="getpage">
<option  value="是"    selected="selected">获取分页信息</option>
<option  value="否">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>
实例2(信息页没有分页,所以分页正则为空):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://zy.muwen.com/pic/89/2007/01/01/131721.htm'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<IMG  src="/UpLoad{图片地址}jpg"'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value='http://zy.muwen.com/'><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='UpLoad'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<span  id="_ctl0_TitleLabel"  class="Title">{图片标题}</span></TD>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value=''><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value=''><br>
<SELECT  NAME="getpage">
<option  value="是">获取分页信息</option>
<option  value="否"    selected="selected">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>
实例3(信息页没有分页,所以分页正则为空,图片为绝对地址,所以图片地址前缀为空):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://www.6642.com/Disp/9936.htm'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<P><IMG{图片地址}"></P>'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value=''><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='UpLoad'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<div  align="right"><b>{图片标题}</b></div></td>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value=''><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value=''><br>
<SELECT  NAME="getpage">
<option  value="是">获取分页信息</option>
<option  value="否"    selected="selected">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>

华声论坛图片为附件http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336436

图片地址正则:upload=jpg{图片地址}upload

图片地址标识:bbs

图片标题正则:帖子主题</B>:{图片标题}</th>

华声论坛图片为外链http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336253

图片地址正则:img]{图片地址}/img

图片地址标识:jpg

图片标题正则:帖子主题</B>:{图片标题}</th>

PHP 相关文章推荐
第八节 访问方式 [8]
Oct 09 PHP
简单的PHP图片上传程序
Mar 27 PHP
DEDE采集大师官方留后门的删除办法
Jan 08 PHP
探讨捕获php错误信息方法的详解
Jun 09 PHP
解析在PHP中使用全局变量的几种方法
Jun 24 PHP
php的mkdir()函数创建文件夹比较安全的权限设置方法
Jul 28 PHP
Yii2简单实现多语言配置的方法
Jul 23 PHP
PHP中检查isset()和!empty()函数的必要性
Feb 13 PHP
PHP5.5基于mysqli连接MySQL数据库和读取数据操作实例详解
Feb 16 PHP
启用OPCache提高PHP程序性能的方法
Mar 21 PHP
thinkphp5 框架结合plupload实现图片批量上传功能示例
Apr 04 PHP
基于ThinkPHP删除目录及目录文件函数
Oct 28 PHP
php下使用无限生命期Session的方法
Mar 16 #PHP
随时给自己贴的图片加文字的php水印
Mar 16 #PHP
php的一个登录的类 [推荐]
Mar 16 #PHP
对Session和Cookie的区分与解释
Mar 16 #PHP
PHP中cookies使用指南
Mar 16 #PHP
PHP学习资料汇总与网址
Mar 16 #PHP
PHP编码规范-php coding standard
Mar 16 #PHP
You might like
PHP在字符断点处截断文字的实现代码
2011/04/21 PHP
PHP中两个float(浮点数)比较实例分析
2015/09/27 PHP
原生php实现excel文件读写的方法分析
2018/04/25 PHP
用javascript自动显示最后更新时间
2007/03/15 Javascript
javascript基础之查找元素的详细介绍(访问节点)
2013/07/05 Javascript
jQuery Ajax()方法使用指南
2014/11/19 Javascript
jQuery内存泄露解决办法
2016/12/13 Javascript
js与jQuery实现的用户注册协议倒计时功能实例【三种方法】
2017/11/09 jQuery
在nginx上部署vue项目(history模式)的方法
2017/12/28 Javascript
解决在Bootstrap模糊框中使用WebUploader的问题
2018/03/22 Javascript
初学node.js中实现删除用户路由
2019/05/27 Javascript
vue实现条件叠加搜索的解决方法
2019/05/28 Javascript
ES6的异步操作之promise用法和async函数的具体使用
2019/12/06 Javascript
基于JS实现计算24点算法代码实例解析
2020/07/23 Javascript
jQuery实现带进度条的轮播图
2020/09/13 jQuery
python时间整形转标准格式的示例分享
2014/02/14 Python
Python文件夹与文件的相关操作(推荐)
2016/07/25 Python
python tensorflow基于cnn实现手写数字识别
2018/01/01 Python
Python3使用SMTP发送带附件邮件
2020/06/16 Python
python判断数字是否是超级素数幂
2018/09/27 Python
Python简易计算器制作方法代码详解
2019/10/31 Python
使用keras实现孪生网络中的权值共享教程
2020/06/11 Python
Python读取二进制文件代码方法解析
2020/06/22 Python
pandas apply多线程实现代码
2020/08/17 Python
Python lambda表达式原理及用法解析
2020/08/18 Python
英国最出名高街品牌:Forever Unique
2018/02/24 全球购物
Booking.com亚太地区:Booking.com APAC
2020/02/07 全球购物
农民致富事迹材料
2014/01/23 职场文书
信访工作经验交流材料
2014/05/23 职场文书
绿色环保口号
2014/06/12 职场文书
音乐兴趣小组活动总结
2014/07/07 职场文书
亲子运动会的活动方案
2014/08/17 职场文书
创业计划书之少年玩具店
2019/09/05 职场文书
厉害!这是Redis可视化工具最全的横向评测
2021/07/15 Redis
中国古风插画师排行榜:夏达第一,第三是阴阳师姑获鸟皮肤创作者
2022/03/18 国漫
豆瓣2021评分最高动画剧集-豆瓣评分最高的动画剧集2021
2022/03/18 日漫