初级的用php写的采集程序


Posted in PHP onMarch 16, 2007

可以先用这个采集然后在用帝国处理
<?php
####################################################################################
#作者:9elong
#网站:个人小站不值一提
#时间:2007-01-01
#声明:仅用于学习php之用。
#功能:采集单页面图片。
#说明:3个示范表单已经写好正则用来示范。没有任何功能说明,一切都在源代码里。附加论坛图片采集正则示范
####################################################################################
//把图片从信息页抓取下来的函数
function  getimg($url,$n,$key,$imgqian,$imgbiao,$titlekey)
{
                //$key图片地址正则
                //$titlekey图片标题正则
                //$imgqian图片地址前缀
                //$imgbiao图片地址特殊标识
                global  $n;
                global  $msg;
                global  $result;
                global  $imgadd;
                global  $title;
                $msg=file_get_contents($url);
                $key=str_replace("{图片地址}","(.+)",$key);
                $key="|".$key."|isU";
                preg_match_all($key,$msg,$result);
                $c=count($result[0]);
                for($i=0;$i<$c;$i++)
                {
                                $img=$result[0][$i]."<br>";
                                if(ereg("^.*".$imgbiao.".*$",$img))
                                {
                                                $img=str_replace($imgbiao,$imgqian.$imgbiao,$img);
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                //echo  "<img  src=".($img[0])."><br>";
                                                $n++;
                                }
                                elseif(ereg("^.*jpg.*$",$img))
                                {
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                if($img[0]!="")
                                                $n++;
                                }
                                unset($img);
                }                                
                                $titlekey=str_replace("{图片标题}","(.+)",$titlekey);
                                $titlekey="|".$titlekey."|isU";
                                preg_match($titlekey,$msg,$title);
                                //echo  $title[0];
                                return  $title;
                return  $msg;
                return  $result;
                return  $n;
                return  $imgadd;
}
####################################################################################
#不支持file_get_contents()函数可以使用下面的替换
#$i=0;
#$handle=@fopen($url,"rb");
#while  (!@feof($handle))
#{
#                $buffer[$i]=  @fgets($handle,  4096);
#                $i++;
#}
#fclose($handle);
#$msg=join("",$buffer);
####################################################################################
if($_GET['act']=="getimgadd"&&$_POST['url']!="")
{
                $url=$_POST['url'];
        getimg($url,"0",$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
####################################################################################
        //获取分页
                if($_POST['getpage']=="是")
        {
                                $_POST['page']=str_replace("{分页地址}","(.+)",$_POST['page']);
                $page="|".$_POST['page']."|isU";
                //echo  $page;
        preg_match_all($page,$msg,$presult);
                if($_POST['pc']==""||$_POST['pc']=="全部")
                        $pc=count($presult[0]);
                else
                                $pc=$_POST['pc'];
                if($_POST['pc']>count($presult[0]))
                                $pc=count($presult[0]);
                for($i=1;$i<$pc;$i++)
                {
                                $pageurl=$presult[0][$i];
                                //echo  $pageurl."<br>";
                                if(ereg("^.*[1-9].*$",$pageurl))
                                {
                                                $pageurl=str_replace("<a  href="","<a  href="".$_POST['imgqian'],$pageurl);
                                                $pagekey=str_replace("{关键地址}","(.+)",$_POST['pagekey']);
                                                $pagekey="|".$pagekey."|isU";
                                                preg_match($pagekey,$pageurl,$N3[$i]);
                                                //echo  ($N3[$i][0])."<br>";
                                                getimg($N3[$i][0],$n,$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
                                }
                }
        }
####################################################################################
        echo  "图片集〖".$title[1]."〗".$n."张图片被抓取<br><a  href='?act='>返回首页</a><br>";

                while(list($num,$var)=each($imgadd))
                {
                                if($_POST['showtype']=="图片")
                                {
                                                echo  "<img  src='".$var."'><br>";
                                }
                                else
                                echo  $var."<br>";
                }
####################################################################################
                //exit();
}
?>
实例1(信息页有分页,使用了简单的分页正则):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://www.pp132.com/n835c17.shtml'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<img{图片地址}>'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value='http://www.pp132.com/'><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='upload'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<H1  class=aTitle>{图片标题}</H1></DIV>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value='<a  href="{分页地址}shtml">.[0-9]'><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value='http://{关键地址}shtml'><br>
<SELECT  NAME="getpage">
<option  value="是"    selected="selected">获取分页信息</option>
<option  value="否">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>
实例2(信息页没有分页,所以分页正则为空):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://zy.muwen.com/pic/89/2007/01/01/131721.htm'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<IMG  src="/UpLoad{图片地址}jpg"'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value='http://zy.muwen.com/'><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='UpLoad'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<span  id="_ctl0_TitleLabel"  class="Title">{图片标题}</span></TD>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value=''><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value=''><br>
<SELECT  NAME="getpage">
<option  value="是">获取分页信息</option>
<option  value="否"    selected="selected">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>
实例3(信息页没有分页,所以分页正则为空,图片为绝对地址,所以图片地址前缀为空):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://www.6642.com/Disp/9936.htm'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<P><IMG{图片地址}"></P>'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value=''><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='UpLoad'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<div  align="right"><b>{图片标题}</b></div></td>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value=''><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value=''><br>
<SELECT  NAME="getpage">
<option  value="是">获取分页信息</option>
<option  value="否"    selected="selected">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>

华声论坛图片为附件http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336436

图片地址正则:upload=jpg{图片地址}upload

图片地址标识:bbs

图片标题正则:帖子主题</B>:{图片标题}</th>

华声论坛图片为外链http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336253

图片地址正则:img]{图片地址}/img

图片地址标识:jpg

图片标题正则:帖子主题</B>:{图片标题}</th>

PHP 相关文章推荐
用PHP读取IMAP邮件
Oct 09 PHP
关于mysql 字段的那个点为是定界符
Jan 15 PHP
PHP5.3.1 不再支持ISAPI
Jan 08 PHP
Windows下安装Memcached的步骤说明
Apr 25 PHP
30个php操作redis常用方法代码例子
Jul 05 PHP
PHP解码unicode编码的中文字符代码分享
Aug 13 PHP
php实用代码片段整理
Nov 12 PHP
PHP中的日期时间处理利器实例(Carbon)
Jun 09 PHP
PHP preg_match实现正则表达式匹配功能【输出是否匹配及匹配值】
Jul 19 PHP
PHP设计模式之数据访问对象模式(DAO)原理与用法实例分析
Dec 12 PHP
phpStudy vscode 搭建debug调试的教程详解
Jul 28 PHP
php实现对短信验证码发送次数的限制实例讲解
Mar 04 PHP
php下使用无限生命期Session的方法
Mar 16 #PHP
随时给自己贴的图片加文字的php水印
Mar 16 #PHP
php的一个登录的类 [推荐]
Mar 16 #PHP
对Session和Cookie的区分与解释
Mar 16 #PHP
PHP中cookies使用指南
Mar 16 #PHP
PHP学习资料汇总与网址
Mar 16 #PHP
PHP编码规范-php coding standard
Mar 16 #PHP
You might like
php cookie 登录验证示例代码
2009/03/16 PHP
超级简单的php+mysql留言本源码
2009/11/11 PHP
用php的ob_start来生成静态页面的方法分析
2011/03/09 PHP
PHP中extract()函数的妙用分析
2012/07/11 PHP
浅析php插件 Simple HTML DOM 用DOM方式处理HTML
2013/07/01 PHP
ThinkPHP实现多数据库连接的解决方法
2014/07/01 PHP
PHP中file_exists使用中遇到的问题小结
2016/04/05 PHP
在Laravel5.6中使用Swoole的协程数据库查询
2018/06/15 PHP
Laravel5.7框架安装与使用学习笔记图文详解
2019/04/02 PHP
jQuery 使用手册(一)
2009/09/23 Javascript
JavaScript window.setTimeout() 的详细用法
2009/11/04 Javascript
jQuery中trigger()方法用法实例
2015/01/19 Javascript
纯javascript代码实现计算器功能(三种方法)
2015/09/07 Javascript
JavaScript代码实现禁止右键、禁选择、禁粘贴、禁shift、禁ctrl、禁alt
2015/11/17 Javascript
JS组件Bootstrap实现弹出框效果代码
2016/04/26 Javascript
jQuery限制图片大小的方法
2016/05/25 Javascript
Javascript中 带名 匿名 箭头函数的重要区别(推荐)
2017/01/29 Javascript
vue.js指令v-model使用方法
2017/03/20 Javascript
Vue页面骨架屏注入方法
2018/05/13 Javascript
layer实现弹出层自动调节位置
2019/09/05 Javascript
在vscode 中设置 vue模板内容的方法
2020/09/02 Javascript
Ubuntu安装Jupyter Notebook教程
2017/10/18 Python
解决seaborn在pycharm中绘图不出图的问题
2018/05/24 Python
Python实现在某个数组中查找一个值的算法示例
2018/06/27 Python
python elasticsearch环境搭建详解
2019/09/02 Python
pytorch中的transforms模块实例详解
2019/12/31 Python
使用CSS Grid布局实现网格的流动
2014/12/30 HTML / CSS
美国女鞋品牌:naturalizer(娜然)
2016/08/01 全球购物
opencv实现图像几何变换
2021/03/24 Python
欢迎标语大全
2014/06/21 职场文书
2014入党积极分子批评与自我批评思想汇报
2014/09/20 职场文书
2014党员整改措施思想汇报
2014/10/07 职场文书
2014房屋登记授权委托书
2014/10/13 职场文书
模范教师材料大全
2014/12/16 职场文书
导游词之绍兴柯岩古镇
2020/01/09 职场文书
CSS3通过var()和calc()函数实现动画特效
2021/03/30 HTML / CSS