编程 PHP

php cURL和Rolling cURL并发方式比较

Posted in PHP onOctober 30, 2013

在实际项目或者自己编写小工具(比如新闻聚合,商品价格监控,比价)的过程中, 通常需要从第3方网站或者API接口获取数据, 在需要处理1个URL队列时, 为了提高性能, 可以采用cURL提供的curl_multi_*族函数实现简单的并发。
本文将探讨两种具体的实现方法, 并对不同的方法做简单的性能对比.
1. 经典cURL并发机制及其存在的问题
经典的cURL实现机制在网上很容易找到, 比如参考PHP在线手册的如下实现方式:

function
classic_curl($urls,
$delay)
 {
    $queue
= curl_multi_init();
    $map
= array();
 
    foreach
($urls
as 
$url)
 {
        //
 create cURL resources
        $ch
= curl_init();
 
        //
 set URL and other appropriate options
        curl_setopt($ch,
 CURLOPT_URL, $url);
 
        curl_setopt($ch,
 CURLOPT_TIMEOUT, 1);
        curl_setopt($ch,
 CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch,
 CURLOPT_HEADER, 0);
        curl_setopt($ch,
 CURLOPT_NOSIGNAL, true);
 
        //
 add handle
        curl_multi_add_handle($queue,
$ch);
        $map[$url]
 = $ch;
    }
 
    $active
= null;
 
    //
 execute the handles
    do
{
        $mrc
= curl_multi_exec($queue,
$active);
    }
while
($mrc
== CURLM_CALL_MULTI_PERFORM);
 
    while
($active
> 0 && $mrc
== CURLM_OK) {
        if
(curl_multi_select($queue,
 0.5) != -1) {
            do
{
                $mrc
= curl_multi_exec($queue,
$active);
            }
while
($mrc
== CURLM_CALL_MULTI_PERFORM);
        }
    }
 
    $responses
= array();
    foreach
($map
as 
$url=>$ch)
 {
        $responses[$url]
 = callback(curl_multi_getcontent($ch),
$delay);
        curl_multi_remove_handle($queue,
$ch);
        curl_close($ch);
    }
 
    curl_multi_close($queue);
    return
$responses;
}

首先将所有的URL压入并发队列, 然后执行并发过程, 等待所有请求接收完之后进行数据的解析等后续处理. 在实际的处理过程中, 受网络传输的影响, 部分URL的内容会优先于其他URL返回, 但是经典cURL并发必须等待最慢的那个URL返回之后才开始处理, 等待也就意味着CPU的空闲和浪费. 如果URL队列很短, 这种空闲和浪费还处在可接受的范围, 但如果队列很长, 这种等待和浪费将变得不可接受.
2. 改进的Rolling cURL并发方式
仔细分析不难发现经典cURL并发还存在优化的空间, 优化的方式时当某个URL请求完毕之后尽可能快的去处理它, 边处理边等待其他的URL返回, 而不是等待那个最慢的接口返回之后才开始处理等工作, 从而避免CPU的空闲和浪费. 闲话不多说, 下面贴上具体的实现:

function
rolling_curl($urls,
$delay)
 {
    $queue
= curl_multi_init();
    $map
= array();
 
    foreach
($urls
as 
$url)
 {
        $ch
= curl_init();
 
        curl_setopt($ch,
 CURLOPT_URL, $url);
        curl_setopt($ch,
 CURLOPT_TIMEOUT, 1);
        curl_setopt($ch,
 CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch,
 CURLOPT_HEADER, 0);
        curl_setopt($ch,
 CURLOPT_NOSIGNAL, true);
 
        curl_multi_add_handle($queue,
$ch);
        $map[(string)
$ch]
 = $url;
    }
 
    $responses
= array();
    do
{
        while
(($code
= curl_multi_exec($queue,
$active))
 == CURLM_CALL_MULTI_PERFORM) ;
 
        if
($code
!= CURLM_OK) { break;
 }
 
        //
 a request was just completed -- find out which one
        while
($done
= curl_multi_info_read($queue))
 {
 
            //
 get the info and content returned on the request
            $info
= curl_getinfo($done['handle']);
            $error
= curl_error($done['handle']);
            $results
= callback(curl_multi_getcontent($done['handle']),
$delay);
            $responses[$map[(string)
$done['handle']]]
 = compact('info',
'error',
'results');
 
            //
 remove the curl handle that just completed
            curl_multi_remove_handle($queue,
$done['handle']);
            curl_close($done['handle']);
        }
 
        //
 Block for data in / output; error handling is done by curl_multi_exec
        if
($active
> 0) {
            curl_multi_select($queue,
 0.5);
        }
 
    }
while
($active);
 
    curl_multi_close($queue);
    return
$responses;
}

3. 两种并发实现的性能对比
改进前后的性能对比试验在LINUX主机上进行, 测试时使用的并发队列如下:

http://a.com/item.htm?id=14392877692
http:/a.com/item.htm?id=16231676302
http://a.com/item.htm?id=5522416710
http://a.com/item.htm?id=16551116403
简要说明下实验设计的原则和性能测试结果的格式: 为保证结果的可靠, 每组实验重复20次, 在单次实验中, 给定相同的接口URL集合, 分别测量Classic(指经典的并发机制)和Rolling(指改进后的并发机制)两种并发机制的耗时(秒为单位), 耗时短者胜出(Winner), 并计算节省的时间(Excellence, 秒为单位)以及性能提升比例(Excel. %). 为了尽量贴近真实的请求而又保持实验的简单, 在对返回结果的处理上只是做了简单的正则表达式匹配, 而没有进行其他复杂的操作. 另外, 为了确定结果处理回调对性能对比测试结果的影响, 可以使用usleep模拟现实中比较负责的数据处理逻辑(如提取, 分词, 写入文件或数据库等).
性能测试中用到的回调函数为:

function
callback($data,
$delay)
 {
    preg_match_all('/<h3>(.+)<\/h3>/iU',
$data,
$matches);
    usleep($delay);
    return
compact('data',
'matches');
}

数据处理回调无延迟时: Rolling Curl略优, 但性能提升效果不明显。
php cURL和Rolling cURL并发方式比较

php cURL和Rolling cURL并发方式比较

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

一个程序下载的管理程序(四)

Oct 09 PHP

PHP 反射机制实现动态代理的代码

Oct 22 PHP

解析将多维数组转换为支持curl提交的一维数组格式

Jul 08 PHP

PHP、Nginx、Apache中禁止网页被iframe引用的方法

Oct 01 PHP

PHP借助phpmailer发送邮件

May 11 PHP

YII Framework框架教程之国际化实现方法

Mar 14 PHP

使用php从身份证号中获取一系列线索（星座、生肖、生日等）

May 11 PHP

Thinkphp3.2简单解决多文件上传只上传一张的问题

Sep 26 PHP

php打开本地exe程序,js打开本地exe应用程序,并传递相关参数方法

Feb 06 PHP

PHP工厂模式简单实现方法示例

May 23 PHP

PHP下载文件函数与用法示例

Sep 27 PHP

php下的原生ajax请求用法实例分析

Feb 28 PHP

使用PHP Socket写的POP3类

Oct 30 #PHP

腾讯QQ微博API接口获取微博内容

Oct 30 #PHP

FireFox浏览器使用Javascript上传大文件

Oct 30 #PHP

php使用ICQ网关发送手机短信

Oct 30 #PHP

PHP分页详细讲解（有实例）

Oct 30 #PHP

php预定义变量使用帮助（带实例）

Oct 30 #PHP

调整PHP的性能

Oct 30 #PHP

You might like

php实现俄罗斯乘法实例

2015/03/07 PHP

Yii redis集合的基本使用教程

2020/06/14 PHP

node.js中的http.request.end方法使用说明

2014/12/10 Javascript

谈谈AngularJs中的隐藏和显示

2015/12/09 Javascript

JS获取复选框的值,并传递到后台的实现方法

2016/05/30 Javascript

js表单登陆验证示例

2016/10/19 Javascript

canvas实现图像布局填充功能

2017/02/06 Javascript

vue+iview写个弹框的示例代码

2017/12/05 Javascript

基于vue v-for 循环复选框-默认勾选第一个的实现方法

2018/03/03 Javascript

Element-UI Table组件上添加列拖拽效果实现方法

2018/04/14 Javascript

Nodejs中的JWT和Session的使用

2018/08/21 NodeJs

图解javascript作用域链

2019/05/27 Javascript

一些可能会用到的Node.js面试题

2019/06/15 Javascript

jQuery实现消息弹出框效果

2019/12/10 jQuery

element-ui 实现响应式导航栏的示例代码

2020/05/08 Javascript

js实现表格数据搜索

2020/08/09 Javascript

Python导出数据到Excel可读取的CSV文件的方法

2015/05/12 Python

Python 中的 else详解

2016/04/23 Python

Python下载指定页面上图片的方法

2016/05/12 Python

Python编程之event对象的用法实例分析

2017/03/23 Python

浅谈python之新式类

2018/08/12 Python

Python2和Python3中urllib库中urlencode的使用注意事项

2018/11/26 Python

Python离线安装PIL 模块的方法

2019/01/08 Python

Python查找最长不包含重复字符的子字符串算法示例

2019/02/13 Python

利用python开发app实战的方法

2019/07/09 Python

python如何支持并发方法详解

2020/07/25 Python

python用Tkinter做自己的中文代码编辑器

2020/09/07 Python

Python中对象的比较操作==和is区别详析

2021/02/12 Python

ALLSAINTS英国官网：伦敦新锐潮流品牌

2016/09/19 全球购物

亚瑟士美国官网：ASICS美国

2017/02/01 全球购物

VLAN和VPN有什么区别？分别实现在OSI的第几层？

2014/12/23 面试题

六五普法规划实施方案

2014/03/21 职场文书

英语教师求职信

2014/06/16 职场文书

工艺技术员岗位职责

2015/02/04 职场文书

感恩母亲节活动总结

2015/02/10 职场文书

教师节寄语2015

2015/03/23 职场文书