编程 PHP

PHP批量采集下载美女图片的实现代码

Posted in PHP onJune 03, 2013

设计思路

考虑到单纯的采集一个网页的图片，太麻烦，所以直接采集他的列表页，获取列表的url然后在一一采集，但是用php匹配列表页的url太麻烦，第一列表页有很多无效url这对我这个正则小菜鸟实在是个问题，看了一下列表页的结构，果断采用jquery获取url，jquery的万能选择器又再次强大起来了。

jquery获取url，然后ajax传递url—>对应PHP文件，遍历url参数—->单页面采集保存图片

jquery程序

<script src="http://www.cztv.com/uibase/jquery.js"></script> 
<script > 
$(document).ready(function(){ 
var hrefs =''; 
$('.f_folder>a').each(function(i){ 
var href = $('.f_folder:eq('+i+')>a:eq(0)').attr('href'); 
if(href!='undefined'){ 
hrefs +=href+','; 
} 
}) 
$.getJSON("http://www.****.com/365/getimg.php?hrefs="+hrefs+"&callback=?", function(data){ 
//alert(data.info); 
}); 
}); 
</script>

这里把url拼接成‘，'分割的字符串传递url，使用getjson是为了跨域需要，关于getjson常见的几个问题可以参看<$.getjson遇到的几个问题>

PHP采集程序

<?php 
// 抓起365图片 
error_reporting(E_ALL ^ E_NOTICE); 
set_time_limit(0);//设置PHP超时时间 
/** 
* 得到当前时间 
*/ 
function getMicrotime() { list ($usec, $sec) = explode(" ", microtime()); 
return ((float) $usec + (float) $sec); 
} 
$stime = getMicrotime(); 
$callback = $_GET['callback']; 
$hrefs = $_GET['hrefs']; 
$urlarray = explode(',',$hrefs); 
//获取指定url的所有图片 
function getimgs($url){ 
$dirname = basename($url,".php"); 
if(!file_exists($dirname)){ 
mkdir('365/'.$dirname.''); 
} 
clearstatcache(); 
$data = file_get_contents($url); 
preg_match_all("/(href|src)=(["|']?)([^ "'>]+.(jpg|png|PNG|JPG|gif))\2/i", $data, $matches); 
//$matches[3] = array_unique($matches[3]); 
unset($data); 
$i=0; 
if(count($matches[3])>0){ 
foreach($matches[3] as $k=>$v){ 
//简单判断是否是标准url，而不是相对路径 
if(substr($v,0,4)=='http'){ 
$ext = pathinfo($v,PATHINFO_EXTENSION);//图片扩展 
if(!file_exists('365/'.$dirname.'/'.$k.'.'.$ext)){ 
file_put_contents('365/'.$dirname.'/'.$k.'.'.$ext,file_get_contents($v)); 
$i++; 
}else{ 
unset($v); 
} 
clearstatcache(); 
}else{ 
unset($v); 
} 
} 
unset($matches); 
return $i; 
} 
} 
foreach($urlarray as $k=>$v){ 
if($v!=''){ 
$j +=getimgs($v); 
} 
} 
$etime = getMicrotime(); 
echo "合计采集了".$j."张图片"; 
echo "用时".($etime-$stime)."秒";

考虑到性能问题：在getimgs方法中所用的变量都是使用后便注销（unset）了，以便释放内存。

设计到的几个知识点

判断是否是标准有效图片url
if(substr($v,0,4)=='http')这个只是简单的判断一下匹配到的图片url是否是标准的url，因为采集的图片可能是相对路径的，这里我直接放弃这种图片的采集，当然你也可以把这种图片还原成标准图片路径，还有一个问题就是即使是标准url格式，这样的图片也未必可以采集，因为你不知道这个图片是否还有，也许这个图片url已经无效了，如果你想更严格的判断这个图片url是否真实有效可以推荐看我之前的《PHP判断远程url是否有效的几种方法》有三种方法可以验证是否是有效url。

获取图片格式

$ext = pathinfo($v,PATHINFO_EXTENSION);//图片扩展

这里使用了pathinfo的方法，总结有7种方法可以获取到文件的格式，推荐文章：《PHP判断图片格式的七种方法》

下载保存到本地

file_put_contents('365/'.$dirname.'/'.$k.'.'.$ext,file_get_contents($v));
file_put_contents() 函数把一个字符串写入文件中。
与依次调用 fopen()，fwrite() 以及 fclose() 功能一样。
file_get_contents() 函数把整个文件读入一个字符串中。

因为服务器支持file_get_contents，如果服务器把这个函数禁用了，可以使用curl，这个工具要比file_get_contents更加强大，推荐学习《CURL的学习和应用(附多线程)》，可以使用curl的多线程下载存储，效果更牛逼

清除文件操作缓存

clearstatcache() 函数清除文件状态缓存。clearstatcache() 函数会缓存某些函数的返回信息，以便提供更高的性能。但是有时候，比如在一个脚本中多次检查同一个文件，而该文件在此脚本执行期间有被删除或修改的危险时，你需要清除文件状态缓存，以便获得正确的结果。要做到这一点，就需要使用 clearstatcache() 函数。官方手册：

程序执行时间计算

/** * 得到当前时间 
*/ 
function getMicrotime() { 
list ($usec, $sec) = explode(" ", microtime()); 
return ((float) $usec + (float) $sec); 
}

可以参考本博客文章；《获取php页面执行时间，数据库读写次数，函数调用次数等【THINKPHP】》

最后看一下效果；

PHP批量采集下载美女图片的实现代码

409秒采集了214张图片，大概2秒下载保存了一张图片，图片总大小约62M，这样看来：

一个小时60*60可以大约下载1800张美女图片。

PHP批量采集下载美女图片的实现代码

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

PHP小技巧搜集,每个PHPer都来露一手

Jan 02 PHP

php 友好URL的实现（吐血推荐）

Oct 04 PHP

php flv视频时间获取函数

Jun 29 PHP

PHP 数组排序方法总结推荐收藏

Jun 30 PHP

PHP strncasecmp字符串比较的小技巧

Jan 04 PHP

php提示无法加载或mcrypt没有找到 PHP 扩展 mbstring解决办法

Mar 27 PHP

php利用新浪接口查询ip获取地理位置示例

Jan 20 PHP

PHP循环结构实例讲解

Feb 10 PHP

php使用GD实现颜色渐变实例

Jun 02 PHP

PHP 7.1中AES加解密方法mcrypt_module_open()的替换方案

Oct 17 PHP

解决Laravel无法使用COOKIE和SESSION的问题

Oct 16 PHP

Laravel 框架路由原理与路由访问实例分析

Apr 14 PHP

基于PHP CURL获取邮箱地址的详解

Jun 03 #PHP

解析CI即CodeIgniter框架在Nginx下的重写规则

Jun 03 #PHP

深入php函数file_get_contents超时处理的方法详解

Jun 03 #PHP

详解PHP内置访问资源的超时时间 time_out file_get_contents read_file

Jun 03 #PHP

PHP CLI模式下的多进程应用分析

Jun 03 #PHP

基于php-fpm 参数的深入理解

Jun 03 #PHP

php-cli简介(不会Shell语言一样用Shell)

Jun 03 #PHP

You might like

php中理解print EOT分界符和echo EOT的用法区别小结

2010/02/21 PHP

php类中private属性继承问题分析

2012/11/01 PHP

Codeigniter(CI)框架分页函数及相关知识

2014/11/03 PHP

ThinkPHP实现ajax仿官网搜索功能实例

2014/12/02 PHP

WebQQ最新登陆协议的用法

2014/12/22 PHP

整理php防注入和XSS攻击通用过滤

2015/09/13 PHP

php验证手机号码

2015/11/11 PHP

Laravel 5.5基于内置的Auth模块实现前后台登陆详解

2017/12/21 PHP

复制小说文本时出现的随机乱码的去除方法

2010/09/07 Javascript

javascript的push使用指南

2014/12/05 Javascript

JavaScript模拟深蓝vs卡斯帕罗夫的国际象棋对局示例

2015/04/22 Javascript

第一章之初识Bootstrap

2016/04/25 Javascript

浅谈javascript中new操作符的原理

2016/06/07 Javascript

Bootstrap实现登录校验表单(带验证码)

2016/06/23 Javascript

浅谈js和css内联外联注意事项

2016/06/30 Javascript

React为 Vue 引入容器组件和展示组件的教程详解

2018/05/03 Javascript

聊聊Vue中provide/inject的应用详解

2019/11/10 Javascript

Python中用format函数格式化字符串的用法

2015/04/08 Python

Python运算符重载用法实例

2015/05/28 Python

Python实现TCP协议下的端口映射功能的脚本程序示例

2016/06/14 Python

Python使用cx_Oracle调用Oracle存储过程的方法示例

2017/10/07 Python

在交互式环境中执行Python程序过程详解

2019/07/12 Python

解决Pycharm的项目目录突然消失的问题

2020/01/20 Python

Django 删除upload_to文件的步骤

2020/03/30 Python

原装进口全世界：天猫国际

2016/08/03 全球购物

Why do we need Unit test

2013/01/03 面试题

监理员的岗位职责

2013/11/13 职场文书

高三自我评价

2014/02/01 职场文书

预备党员学习十八届三中全会精神思想汇报

2014/09/13 职场文书

写给医生的感谢信

2015/01/22 职场文书

网络舆情信息简报

2015/07/21 职场文书

会计岗位工作总结

2015/08/12 职场文书

2016年5月份红领巾广播稿

2015/12/21 职场文书

Java如何实现通过键盘输入一个数组

2022/02/15 Java/Android

vue项目打包后路由错误的解决方法

2022/04/13 Vue.js

Django框架中模型的用法

2022/06/10 Python