php cURL和Rolling cURL并发方式比较


Posted in PHP onOctober 30, 2013

在实际项目或者自己编写小工具(比如新闻聚合,商品价格监控,比价)的过程中, 通常需要从第3方网站或者API接口获取数据, 在需要处理1个URL队列时, 为了提高性能, 可以采用cURL提供的curl_multi_*族函数实现简单的并发。
本文将探讨两种具体的实现方法, 并对不同的方法做简单的性能对比.
1. 经典cURL并发机制及其存在的问题
经典的cURL实现机制在网上很容易找到, 比如参考PHP在线手册的如下实现方式:

function
classic_curl($urls,
$delay)
 {
    $queue
= curl_multi_init();
    $map
= array();
 
    foreach
($urls
as 
$url)
 {
        //
 create cURL resources
        $ch
= curl_init();
 
        //
 set URL and other appropriate options
        curl_setopt($ch,
 CURLOPT_URL, $url);
 
        curl_setopt($ch,
 CURLOPT_TIMEOUT, 1);
        curl_setopt($ch,
 CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch,
 CURLOPT_HEADER, 0);
        curl_setopt($ch,
 CURLOPT_NOSIGNAL, true);
 
        //
 add handle
        curl_multi_add_handle($queue,
$ch);
        $map[$url]
 = $ch;
    }
 
    $active
= null;
 
    //
 execute the handles
    do
{
        $mrc
= curl_multi_exec($queue,
$active);
    }
while
($mrc
== CURLM_CALL_MULTI_PERFORM);
 
    while
($active
> 0 && $mrc
== CURLM_OK) {
        if
(curl_multi_select($queue,
 0.5) != -1) {
            do
{
                $mrc
= curl_multi_exec($queue,
$active);
            }
while
($mrc
== CURLM_CALL_MULTI_PERFORM);
        }
    }
 
    $responses
= array();
    foreach
($map
as 
$url=>$ch)
 {
        $responses[$url]
 = callback(curl_multi_getcontent($ch),
$delay);
        curl_multi_remove_handle($queue,
$ch);
        curl_close($ch);
    }
 
    curl_multi_close($queue);
    return
$responses;
}

首先将所有的URL压入并发队列, 然后执行并发过程, 等待所有请求接收完之后进行数据的解析等后续处理. 在实际的处理过程中, 受网络传输的影响, 部分URL的内容会优先于其他URL返回, 但是经典cURL并发必须等待最慢的那个URL返回之后才开始处理, 等待也就意味着CPU的空闲和浪费. 如果URL队列很短, 这种空闲和浪费还处在可接受的范围, 但如果队列很长, 这种等待和浪费将变得不可接受.
2. 改进的Rolling cURL并发方式
仔细分析不难发现经典cURL并发还存在优化的空间, 优化的方式时当某个URL请求完毕之后尽可能快的去处理它, 边处理边等待其他的URL返回, 而不是等待那个最慢的接口返回之后才开始处理等工作, 从而避免CPU的空闲和浪费. 闲话不多说, 下面贴上具体的实现:
function
rolling_curl($urls,
$delay)
 {
    $queue
= curl_multi_init();
    $map
= array();
 
    foreach
($urls
as 
$url)
 {
        $ch
= curl_init();
 
        curl_setopt($ch,
 CURLOPT_URL, $url);
        curl_setopt($ch,
 CURLOPT_TIMEOUT, 1);
        curl_setopt($ch,
 CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch,
 CURLOPT_HEADER, 0);
        curl_setopt($ch,
 CURLOPT_NOSIGNAL, true);
 
        curl_multi_add_handle($queue,
$ch);
        $map[(string)
$ch]
 = $url;
    }
 
    $responses
= array();
    do
{
        while
(($code
= curl_multi_exec($queue,
$active))
 == CURLM_CALL_MULTI_PERFORM) ;
 
        if
($code
!= CURLM_OK) { break;
 }
 
        //
 a request was just completed -- find out which one
        while
($done
= curl_multi_info_read($queue))
 {
 
            //
 get the info and content returned on the request
            $info
= curl_getinfo($done['handle']);
            $error
= curl_error($done['handle']);
            $results
= callback(curl_multi_getcontent($done['handle']),
$delay);
            $responses[$map[(string)
$done['handle']]]
 = compact('info',
'error',
'results');
 
            //
 remove the curl handle that just completed
            curl_multi_remove_handle($queue,
$done['handle']);
            curl_close($done['handle']);
        }
 
        //
 Block for data in / output; error handling is done by curl_multi_exec
        if
($active
> 0) {
            curl_multi_select($queue,
 0.5);
        }
 
    }
while
($active);
 
    curl_multi_close($queue);
    return
$responses;
}

3. 两种并发实现的性能对比
改进前后的性能对比试验在LINUX主机上进行, 测试时使用的并发队列如下:

http://a.com/item.htm?id=14392877692
http:/a.com/item.htm?id=16231676302
http://a.com/item.htm?id=5522416710
http://a.com/item.htm?id=16551116403
简要说明下实验设计的原则和性能测试结果的格式: 为保证结果的可靠, 每组实验重复20次, 在单次实验中, 给定相同的接口URL集合, 分别测量Classic(指经典的并发机制)和Rolling(指改进后的并发机制)两种并发机制的耗时(秒为单位), 耗时短者胜出(Winner), 并计算节省的时间(Excellence, 秒为单位)以及性能提升比例(Excel. %). 为了尽量贴近真实的请求而又保持实验的简单, 在对返回结果的处理上只是做了简单的正则表达式匹配, 而没有进行其他复杂的操作. 另外, 为了确定结果处理回调对性能对比测试结果的影响, 可以使用usleep模拟现实中比较负责的数据处理逻辑(如提取, 分词, 写入文件或数据库等).
性能测试中用到的回调函数为:

function
callback($data,
$delay)
 {
    preg_match_all('/<h3>(.+)<\/h3>/iU',
$data,
$matches);
    usleep($delay);
    return
compact('data',
'matches');
}

数据处理回调无延迟时: Rolling Curl略优, 但性能提升效果不明显。
php cURL和Rolling cURL并发方式比较
PHP 相关文章推荐
PHP生成静态页面详解
Dec 05 PHP
php正则表达式(regar expression)
Sep 10 PHP
PHP Directory 函数的详解
Mar 07 PHP
基于PHP常用函数的用法详解
May 10 PHP
PHP中ob_start函数的使用说明
Nov 11 PHP
PHP 实现类似js中alert() 提示框
Mar 18 PHP
php生成数字字母的验证码图片
Jul 14 PHP
php版银联支付接口开发简明教程
Oct 14 PHP
PHP实现的敏感词过滤方法示例
Mar 06 PHP
PHP单元测试配置与使用方法详解
Dec 27 PHP
Yii使用EasyWechat实现小程序获取用户的openID的方法
Apr 29 PHP
PHP时间相关常用函数用法示例
Jun 03 PHP
使用PHP Socket写的POP3类
Oct 30 #PHP
腾讯QQ微博API接口获取微博内容
Oct 30 #PHP
FireFox浏览器使用Javascript上传大文件
Oct 30 #PHP
php使用ICQ网关发送手机短信
Oct 30 #PHP
PHP分页详细讲解(有实例)
Oct 30 #PHP
php预定义变量使用帮助(带实例)
Oct 30 #PHP
调整PHP的性能
Oct 30 #PHP
You might like
php 的加密函数 md5,crypt,base64_encode 等使用介绍
2012/04/09 PHP
编写php应用程序实现摘要式身份验证的方法详解
2013/06/08 PHP
微信公众平台天气预报功能开发
2014/07/06 PHP
php项目中类的自动加载实例讲解
2019/09/12 PHP
JS面向对象编程之对象使用分析
2010/08/19 Javascript
jquery 动态创建元素的方式介绍及应用
2013/04/21 Javascript
Javascript 鼠标移动上去 滑块跟随效果代码分享
2013/11/23 Javascript
让checkbox不选中即将选中的checkbox不选中
2014/07/11 Javascript
使用text方法获取Html元素文本信息示例
2014/09/01 Javascript
jquery中使用循环下拉菜单示例代码
2014/09/24 Javascript
浅谈轻量级js模板引擎simplite
2015/02/13 Javascript
基于jQuery实现左右图片轮播(原理通用)
2015/12/24 Javascript
浅谈window.onbeforeunload() 事件调用ajax
2016/06/29 Javascript
BootStrap 动态添加验证项和取消验证项的实现方法
2016/09/28 Javascript
jQueryUI Datepicker组件设置日期高亮
2016/10/13 Javascript
Webpack打包css后z-index被重新计算的解决方法
2017/06/18 Javascript
使用AngularJS对表单提交内容进行验证的操作方法
2017/07/12 Javascript
jQuery+vue.js实现的九宫格拼图游戏完整实例【附源码下载】
2017/09/12 jQuery
vue项目中导入swiper插件的方法
2018/01/30 Javascript
Element输入框带历史查询记录的实现示例
2019/01/15 Javascript
swiper4实现移动端导航切换
2020/10/16 Javascript
Node.js API详解之 module模块用法实例分析
2020/05/13 Javascript
Vue项目移动端滚动穿透问题的实现
2020/05/19 Javascript
解决vue+router路由跳转不起作用的一项原因
2020/07/19 Javascript
用Python中的__slots__缓存资源以节省内存开销的方法
2015/04/02 Python
python搭建微信公众平台
2016/02/09 Python
对python中的pop函数和append函数详解
2018/05/04 Python
利用纯css3实现的文字亮光特效的代码演示
2014/11/27 HTML / CSS
日本高岛屋百货购物网站:TAKASHIMAYA
2019/03/24 全球购物
英国男女豪华配饰和礼品网站:Black.co.uk
2020/02/28 全球购物
计算机专业学生求职信分享
2013/12/15 职场文书
超市国庆节促销方案
2014/02/20 职场文书
危货运输企业安全生产责任书
2014/07/28 职场文书
六一文艺汇演开幕词
2015/01/29 职场文书
就业导师推荐信范文
2015/03/27 职场文书
关于EntityWrapper的in用法
2022/03/22 Java/Android