基于curl数据采集之单页面采集函数get_html的使用


Posted in PHP onApril 28, 2013

这是一个系列 没办法在一两天写完 所以一篇一篇的发布

大致大纲:

1.curl数据采集系列之单页面采集函数get_html

2.curl数据采集系列之多页面并行采集函数get_htmls

3.curl数据采集系列之正则处理函数get _matches

4.curl数据采集系列之代码分离

5.curl数据采集系列之并行逻辑控制函数web_spider

单页面采集在数据采集过程中是最常用的一个功能 有时在服务器访问限制的情况下 只能使用这种采集方式 慢 但是可以简单的控制 所以写好一个常用的curl函数调用是很重要的

百度和网易比较熟悉 所以拿这两个网站首页采集来做例子讲解

最简单的写法:

$url = 'http://www.baidu.com';
 $ch = curl_init($url);
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
 curl_setopt($ch,CURLOPT_TIMEOUT,5);
 $html = curl_exec($ch);
 if($html !== false){
     echo $html;
 }

由于使用频繁 可以利用curl_setopt_array写成函数的形式:
function get_html($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     curl_close($ch);
     if($html === false){
         return false;
     }
     return $html;
 }

$url = 'http://www.baidu.com';
echo get_html($url);

有时候需要传递一些特定的参数才能得到正确的页面 如现在要得到网易的页面:
$url = 'http://www.163.com';
echo get_html($url);

会看到一片空白 什么也没有 那么再利用curl_getinfo写一个函数 看看发生了什么:
function get_info($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     $info = curl_getinfo($ch);
     curl_close($ch);
     return $info;
 }
 $url = 'http://www.163.com';
 var_dump(get_info($url));

基于curl数据采集之单页面采集函数get_html的使用

可以看到http_code 302 重定向了 这时候就需要传递一些参数了:

$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
echo get_html($url,$options);

基于curl数据采集之单页面采集函数get_html的使用

会发现 怎么是这样的一个页面 和我们电脑访问的不同???

看来参数还是不够 不够服务器判断我们的客户端是什么设备上的 就返回了个普通版

看来还要传送USERAGENT

$url = 'http://www.163.com';
 $options[CURLOPT_FOLLOWLOCATION] = true;
 $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
 echo get_html($url,$options);

基于curl数据采集之单页面采集函数get_html的使用

 

OK现在页面已经出来了 这样基本这个get_html函数基本能实现这样扩展的功能

当然也有另外的办法可以实现,当你明确的知道网易的网页的时候就可以简单采集了:

 $url = 'http://www.163.com/index.html';
 echo get_html($url);

这样也可以正常的采集
PHP 相关文章推荐
1.PHP简介
Oct 09 PHP
PHP关联链接常用代码
Nov 05 PHP
PHP命名空间(Namespace)的使用详解
May 04 PHP
PHP代码优化之成员变量获取速度对比
Feb 28 PHP
PHP中的替代语法简介
Aug 22 PHP
PHP图片处理之图片旋转和图片翻转实例
Nov 19 PHP
Yii框架在页面输出执行sql语句以方便调试的实现方法
Dec 24 PHP
php+mysql大量用户登录解决方案分析
Dec 29 PHP
PHP技术开发微信公众平台
Jul 22 PHP
php遍历解析xml字符串的方法
May 05 PHP
PHP new static 和 new self详解
Feb 19 PHP
php-app开发接口加密详解
Apr 18 PHP
基于php上传图片重命名的6种解决方法的详细介绍
Apr 28 #PHP
PHP基础学习之流程控制的实现分析
Apr 28 #PHP
PHP基础之运算符的使用方法
Apr 28 #PHP
PHP数据类型之整数类型、浮点数的介绍
Apr 28 #PHP
PHP数据类型之布尔型的介绍
Apr 28 #PHP
PHP中最容易忘记的一些知识点总结
Apr 28 #PHP
php中is_null,empty,isset,unset 的区别详细介绍
Apr 28 #PHP
You might like
php jquery 多文件上传简单实例
2013/12/23 PHP
thinkphp5框架结合mysql实现微信登录和自定义分享链接与图文功能示例
2019/08/13 PHP
网页和浏览器兼容性问题汇总(draft1)
2009/06/01 Javascript
javascript showModalDialog,open取得父窗口的方法
2010/03/10 Javascript
这些年、我收集的JQuery代码小结
2012/08/01 Javascript
js图片自动切换效果处理代码
2013/05/07 Javascript
通过JS来动态的修改url,实现对url的增删查改
2014/09/01 Javascript
JavaScript常用的返回,自动跳转,刷新,关闭语句汇总
2015/01/13 Javascript
JavaScript的内存释放问题详解
2015/01/21 Javascript
js控制div弹出层实现方法
2015/05/11 Javascript
详解JS中的快速排序与冒泡
2017/01/10 Javascript
js es6系列教程 - 新的类语法实战选项卡(详解)
2017/09/02 Javascript
微信小程序数据统计和错误统计的实现方法
2019/06/26 Javascript
ES6 Promise对象概念及用法实例详解
2019/10/15 Javascript
vue 实现锚点功能操作
2020/08/10 Javascript
Vue实现鼠标经过文字显示悬浮框效果的示例代码
2020/10/14 Javascript
[50:17]Newbee vs Serenity 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
python实现批量转换文件编码(批转换编码示例)
2014/01/23 Python
【Python】Python的urllib模块、urllib2模块批量进行网页下载文件
2016/11/19 Python
对python插入数据库和生成插入sql的示例讲解
2018/11/14 Python
django Layui界面点击弹出对话框并请求逻辑生成分页的动态表格实例
2020/05/12 Python
Numpy数组的广播机制的实现
2020/11/03 Python
CSS3 please 跨浏览器的CSS3产生器
2010/03/14 HTML / CSS
英国水族馆和池塘用品购物网站:Warehouse Aquatics
2019/08/29 全球购物
2014村务公开实施方案
2014/02/25 职场文书
大班开学家长寄语
2014/04/04 职场文书
地质灾害防治方案
2014/05/14 职场文书
公安派出所所长四风问题个人对照检查材料
2014/10/04 职场文书
护理见习报告范文
2014/11/03 职场文书
2014年小学教导处工作总结
2014/12/19 职场文书
团日活动总结格式
2015/05/11 职场文书
入党团支部推荐意见
2015/06/02 职场文书
先进个人主要事迹怎么写
2015/11/04 职场文书
Redis主从配置和底层实现原理解析(实战记录)
2021/06/30 Redis
python基础之类属性和实例属性
2021/10/24 Python
浅谈Node的内存泄露问题
2022/05/06 NodeJs