PHP CURL或file_get_contents获取网页标题的代码及两者效率的稳定性问题


Posted in PHP onNovember 30, 2015

PHP CURL与file_get_contents函数都可以获取远程服务器上的文件保存到本地,但在性能上面两者完全不在同一个级别,下面我先来介绍PHP CURL或file_get_contents函数应用例子,然后再简单的给各位介绍一下它们的一些小区别吧。

推荐方法 CURL获取

<?php
$c = curl_init();
$url = '3water.com';
curl_setopt($c, CURLOPT_URL, $url);
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
$data = curl_exec($c);
curl_close($c);
$pos = strpos($data,'utf-8');
if($pos===false){$data = iconv("gbk","utf-8",$data);}
preg_match("/<title>(.*)<\/title>/i",$data, $title);
echo $title[1];
?>

使用file_get_contents

<?php
$content=file_get_contents("https://3water.com/");
$pos = strpos($content,'utf-8');
if($pos===false){$content = iconv("gbk","utf-8",$content);}
$postb=strpos($content,'<title>')+7;
$poste=strpos($content,'</title>');
$length=$poste-$postb;
echo substr($content,$postb,$length);
?>

看看file_get_contents性能

1)fopen/file_get_contents 每次请求远程URL中的数据都会重新做DNS查询,并不对DNS信息进行缓存。但是CURL会自动对DNS信息进行缓存。对同一域名下的网页或者图片的请求只需要一次DNS 查询。这大大减少了DNS查询的次数。所以CURL的性能比fopen/file_get_contents 好很多。
2)fopen/file_get_contents在请求HTTP时,使用的是http_fopen_wrapper,不会keeplive。而curl却可以。这样在多次请求多个链接时,curl效率会好一些。(设置header头应该可以)
3)fopen/file_get_contents函数会受到php.ini文件中allow_url_open选项配置的影响。如果该配置关闭了,则该函数也就失效了。而curl不受该配置的影响。
4)curl可以模拟多种请求,例如:POST数据,表单提交等,用户可以按照自己的需求来定制请求。而fopen/file_get_contents只能使用get方式获取数据。
5)fopen/file_get_contents 不能正确下载二进制文件
6)fopen/file_get_contents 不能正确处理ssl请求
7)curl 可以利用多线程
8)使用 file_get_contents 的时候如果 网络出现问题, 很容易堆积一些进程在这里
9)如果是要打一个持续连接,多次请求多个页面。那么file_get_contents就会出问题。取得的内容也可能会不对。所以做一些类似采集工作的时候,肯定就有问题了。对做采集抓取的用curl,如果还有同不相信下面我们再做个测试

curl与file_get_contents性能对比PHP源代码如下:

1829.php

<?php
/**
* 通过淘宝IP接口获取IP地理位置
* @param string $ip
* @return: string
**/
function getCityCurl($ip)
{
 $url="http://ip.taobao.com/service/getIpInfo.php?ip=".$ip;
 $ch = curl_init();
 $timeout = 5;
 curl_setopt ($ch, CURLOPT_URL, $url);
 curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
 curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
 $file_contents = curl_exec($ch);
 curl_close($ch);
 $ipinfo=json_decode($file_contents);
 if($ipinfo->code=='1'){
  return false;
 }
 $city = $ipinfo->data->region.$ipinfo->data->city;
 return $city;
}
function getCity($ip)
{
 $url="http://ip.taobao.com/service/getIpInfo.php?ip=".$ip;
 $ipinfo=json_decode(file_get_contents($url));
 if($ipinfo->code=='1'){
  return false;
 }
 $city = $ipinfo->data->region.$ipinfo->data->city;
 return $city;
}
// for file_get_contents
$startTime=explode(' ',microtime());
$startTime=$startTime[0] + $startTime[1];
for($i=1;$i<=10;$i++)
{
 echo getCity("121.207.247.202")."</br>";
}
$endTime = explode(' ',microtime());
$endTime = $endTime[0] + $endTime[1];
$totalTime = $endTime - $startTime;
echo 'file_get_contents:'.number_format($totalTime, 10, '.', "")." seconds</br>";
//for curl
$startTime2=explode(' ',microtime());
$startTime2=$startTime2[0] + $startTime2[1];
for($i=1;$i<=10;$i++)
{
 echo getCityCurl('121.207.247.202')."</br>";
}
$endTime2 = explode(' ',microtime());
$endTime2=$endTime2[0] + $endTime2[1];
$totalTime2 = $endTime2 - $startTime2;
echo "curl:".number_format($totalTime2, 10, '.', "")." seconds";
?>

测试访问

file_get_contents速度:4.2404510975 seconds
curl速度:2.8205530643 seconds
curl比file_get_contents速度快了30%左右,最重要的是服务器负载更低.

ps:php函数file_get_contents与curl效率及稳定性问题

习惯了使用方便快捷的file_get_contents函数抓取别家网站内容,但是总是会遇到获取失败的问题,尽管按照手册中的例子设置了超时,可多数时候不好使:

$config['context'] = stream_context_create(array('http' => array('method' => "GET",'timeout' => 5))); 
'timeout' => 5//这个超时时间不稳定,经常不好使。这时候,看一下服务器的连接池,会发现一堆类似下面的错误,让你头疼万分:

file_get_contents(http://***): failed to open stream… 

不得已,安装了curl库,写了一个函数替换:

function curl_get_contents($url) 
{ 
 $ch = curl_init(); 
 curl_setopt($ch, CURLOPT_URL, $url);   //设置访问的url地址 
 //curl_setopt($ch,CURLOPT_HEADER,1);   //是否显示头部信息 
 curl_setopt($ch, CURLOPT_TIMEOUT, 5);   //设置超时 
 curl_setopt($ch, CURLOPT_USERAGENT, _USERAGENT_); //用户访问代理 User-Agent 
 curl_setopt($ch, CURLOPT_REFERER,_REFERER_);  //设置 referer 
 curl_setopt($ch,CURLOPT_FOLLOWLOCATION,1);  //跟踪301 
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  //返回结果 
 $r = curl_exec($ch); 
 curl_close($ch); 
 return $r; 
}

如此,除了真正的网络问题外,没再出现任何问题。

这是别人做过的关于curl和file_get_contents的测试:

file_get_contents抓取google.com需用秒数:

2.31319094  
2.30374217  
2.21512604  
3.30553889  
2.30124092 

curl使用的时间:

0.68719101  
0.64675593  
0.64326  
0.81983113  
0.63956594 

差距很大吧?呵呵,从我使用的经验来说,这两个工具不只是速度有差异,稳定性也相差很大。建议对网络数据抓取稳定性要求比较高的朋友使用上面的 curl_file_get_contents函数,不但稳定速度快,还能假冒浏览器欺骗目标地址哦!

PHP 相关文章推荐
需要注意的几个PHP漏洞小结
Feb 05 PHP
php生成图形验证码几种方法小结
Aug 15 PHP
PHP计算一年多少个星期和每周的开始和结束日期
Jul 01 PHP
yii2使用ajax返回json的实现方法
May 14 PHP
CI框架实现cookie登陆的方法详解
May 18 PHP
thinkphp在php7环境下提示Cannot use ‘String’ as class name as it is reserved的解决方法
Sep 30 PHP
php array_udiff_assoc 计算两个数组的差集实例
Nov 12 PHP
php实现的简单数据库操作Model类
Nov 16 PHP
php 微信开发获取用户信息如何实现
Dec 13 PHP
PHP切割汉字的常用方法实例总结
Apr 27 PHP
PHP设计模式之外观模式(Facade)入门与应用详解
Dec 13 PHP
php中try catch捕获异常实例详解
Aug 06 PHP
php curl抓取网页的介绍和推广及使用CURL抓取淘宝页面集成方法
Nov 30 #PHP
PHP curl模拟登录带验证码的网站
Nov 30 #PHP
PHP可变函数学习小结
Nov 29 #PHP
PHP可变变量学习小结
Nov 29 #PHP
PHP中对数组的一些常用的增、删、插操作函数总结
Nov 27 #PHP
详解PHP对数组的定义以及数组的创建方法
Nov 27 #PHP
实例简介PHP的一些高级面向对象编程的特性
Nov 27 #PHP
You might like
亚洲咖啡有什么?亚洲咖啡产地介绍 亚洲咖啡有什么特点?
2021/03/05 新手入门
php cookie的操作实现代码(登录)
2010/12/29 PHP
PHP使用OB缓存实现静态化功能示例
2019/03/23 PHP
php设计模式之观察者模式定义与用法经典示例
2019/09/19 PHP
基于Laravel-admin 后台的自定义页面用法详解
2019/09/30 PHP
游戏人文件夹程序 ver 4.03
2006/07/14 Javascript
JS实现点击图片在当前页面放大并可关闭的漂亮效果
2013/10/18 Javascript
js实现从数组里随机获取元素
2015/01/12 Javascript
js钢琴按钮波浪式图片排列效果代码分享
2015/08/26 Javascript
原生JS实现图片轮播与淡入效果的简单实例
2016/08/21 Javascript
利用angularjs1.4制作的简易滑动门效果
2017/02/28 Javascript
Vue实现PopupWindow组件详解
2018/04/28 Javascript
微信小程序实现topBar底部选择栏效果
2018/07/20 Javascript
angular 表单验证器验证的同时限制输入的实现
2019/04/11 Javascript
Async/Await替代Promise的6个理由
2019/06/15 Javascript
js实现秒表计时器
2019/12/16 Javascript
小程序实现可拖动的悬浮按钮
2020/09/07 Javascript
[09:23]国际邀请赛采访专栏:iG战队VK,Tongfu战队Cu
2013/08/05 DOTA
[01:19]2014DOTA2国际邀请赛 采访TITAN战队ohaiyo 能赢DK很幸运
2014/07/12 DOTA
详解Python的迭代器、生成器以及相关的itertools包
2015/04/02 Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
2015/12/25 Python
python subprocess 杀掉全部派生的子进程方法
2017/01/16 Python
python 实现在txt指定行追加文本的方法
2018/04/29 Python
django2.0扩展用户字段示例
2019/02/13 Python
Python中按值来获取指定的键
2019/03/04 Python
pandas计算最大连续间隔的方法
2019/07/04 Python
Python-opencv 双线性插值实例
2020/01/17 Python
一文读懂Python 枚举
2020/08/25 Python
Python面向对象特殊属性及方法解析
2020/09/16 Python
python判断字符串以什么结尾的实例方法
2020/09/18 Python
跑操口号
2014/06/12 职场文书
建筑工地大门标语
2014/06/18 职场文书
国庆节促销广告语2014
2014/09/19 职场文书
弘扬焦裕禄精神践行三严三实心得体会
2014/10/13 职场文书
2015年干部教育培训工作总结
2015/05/15 职场文书
2015年度企业工作总结
2015/05/21 职场文书