基于curl数据采集之单页面采集函数get_html的使用


Posted in PHP onApril 28, 2013

这是一个系列 没办法在一两天写完 所以一篇一篇的发布

大致大纲:

1.curl数据采集系列之单页面采集函数get_html

2.curl数据采集系列之多页面并行采集函数get_htmls

3.curl数据采集系列之正则处理函数get _matches

4.curl数据采集系列之代码分离

5.curl数据采集系列之并行逻辑控制函数web_spider

单页面采集在数据采集过程中是最常用的一个功能 有时在服务器访问限制的情况下 只能使用这种采集方式 慢 但是可以简单的控制 所以写好一个常用的curl函数调用是很重要的

百度和网易比较熟悉 所以拿这两个网站首页采集来做例子讲解

最简单的写法:

$url = 'http://www.baidu.com';
 $ch = curl_init($url);
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
 curl_setopt($ch,CURLOPT_TIMEOUT,5);
 $html = curl_exec($ch);
 if($html !== false){
     echo $html;
 }

由于使用频繁 可以利用curl_setopt_array写成函数的形式:
function get_html($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     curl_close($ch);
     if($html === false){
         return false;
     }
     return $html;
 }

$url = 'http://www.baidu.com';
echo get_html($url);

有时候需要传递一些特定的参数才能得到正确的页面 如现在要得到网易的页面:
$url = 'http://www.163.com';
echo get_html($url);

会看到一片空白 什么也没有 那么再利用curl_getinfo写一个函数 看看发生了什么:
function get_info($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     $info = curl_getinfo($ch);
     curl_close($ch);
     return $info;
 }
 $url = 'http://www.163.com';
 var_dump(get_info($url));

基于curl数据采集之单页面采集函数get_html的使用

可以看到http_code 302 重定向了 这时候就需要传递一些参数了:

$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
echo get_html($url,$options);

基于curl数据采集之单页面采集函数get_html的使用

会发现 怎么是这样的一个页面 和我们电脑访问的不同???

看来参数还是不够 不够服务器判断我们的客户端是什么设备上的 就返回了个普通版

看来还要传送USERAGENT

$url = 'http://www.163.com';
 $options[CURLOPT_FOLLOWLOCATION] = true;
 $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
 echo get_html($url,$options);

基于curl数据采集之单页面采集函数get_html的使用

 

OK现在页面已经出来了 这样基本这个get_html函数基本能实现这样扩展的功能

当然也有另外的办法可以实现,当你明确的知道网易的网页的时候就可以简单采集了:

 $url = 'http://www.163.com/index.html';
 echo get_html($url);

这样也可以正常的采集
PHP 相关文章推荐
多数据表共用一个页的新闻发布
Oct 09 PHP
PHP中一个控制字符串输出的函数
Oct 09 PHP
MYSQL数据库初学者使用指南
Nov 16 PHP
用PHP实现维护文件代码
Jun 14 PHP
PHP iconv 函数转gb2312的bug解决方法
Oct 11 PHP
Drupal 添加模块出现莫名其妙的错误的解决方法(往往出现在模块较多时)
Apr 18 PHP
php异常:Parse error: syntax error, unexpected T_ENCAPSED_AND_WHITESPACE  eval()'d code error
May 19 PHP
解析php时间戳与日期的转换
Jun 06 PHP
Symfony2学习笔记之系统路由详解
Mar 17 PHP
php基于openssl的rsa加密解密示例
Jul 11 PHP
php连接mysql数据库
Mar 21 PHP
laravel 模型查询按照whereIn排序的示例
Oct 16 PHP
基于php上传图片重命名的6种解决方法的详细介绍
Apr 28 #PHP
PHP基础学习之流程控制的实现分析
Apr 28 #PHP
PHP基础之运算符的使用方法
Apr 28 #PHP
PHP数据类型之整数类型、浮点数的介绍
Apr 28 #PHP
PHP数据类型之布尔型的介绍
Apr 28 #PHP
PHP中最容易忘记的一些知识点总结
Apr 28 #PHP
php中is_null,empty,isset,unset 的区别详细介绍
Apr 28 #PHP
You might like
PHP脚本中include文件出错解决方法
2008/11/20 PHP
简单的php数据库操作类代码(增,删,改,查)
2013/04/08 PHP
PHP编码规范的深入探讨
2013/06/06 PHP
php生成短网址示例
2014/05/05 PHP
PHP中一些可以替代正则表达式函数的字符串操作函数
2014/11/17 PHP
使用PHP生成二维码的方法汇总
2015/07/22 PHP
微信随机生成红包金额算法php版
2016/07/21 PHP
PHP实现链式操作的三种方法详解
2017/11/16 PHP
php微信公众号开发之简答题
2018/10/20 PHP
解决在Laravel 中处理OPTIONS请求的问题
2019/10/11 PHP
理解JavaScript中的事件
2006/09/23 Javascript
js判断运行jsp页面的浏览器类型以及版本示例
2013/10/30 Javascript
JS控制图片翻转示例代码(兼容firefox,ie,chrome)
2013/12/19 Javascript
Nodejs极简入门教程(一):模块机制
2014/10/25 NodeJs
JavaScript资源预加载组件和滑屏组件的使用推荐
2016/03/10 Javascript
基于JS实现密码框(password)中显示文字提示功能代码
2016/05/27 Javascript
JavaScript prototype属性详解
2016/10/25 Javascript
javascript实现非常简单的小数取整功能示例
2017/06/13 Javascript
浅谈 Vue 项目优化的方法
2017/12/16 Javascript
layer弹出层 iframe层去掉滚动条的实例代码
2018/08/17 Javascript
详解使用element-ui table组件的筛选功能的一个小坑
2018/11/02 Javascript
python的常见命令注入威胁
2013/02/18 Python
Python采用raw_input读取输入值的方法
2014/08/18 Python
Python 实现网页自动截图的示例讲解
2018/05/17 Python
Python把对应格式的csv文件转换成字典类型存储脚本的方法
2019/02/12 Python
python检测服务器端口代码实例
2019/08/31 Python
python 三种方法提取pdf中的图片
2021/02/07 Python
HTML块级标签汇总(小篇)
2016/07/13 HTML / CSS
美国真皮手袋品牌:GiGi New York
2017/03/10 全球购物
业务部主管岗位职责
2014/01/29 职场文书
中学生获奖感言
2014/02/04 职场文书
高二学生评语大全
2014/04/25 职场文书
党员个人对照检查材料
2014/10/01 职场文书
2015年设计师个人工作总结
2015/04/25 职场文书
工资证明格式模板
2015/06/12 职场文书
java高级用法JNA强大的Memory和Pointer
2022/04/19 Java/Android