编程 PHP

PHP抓取及分析网页的方法详解

Posted in PHP onApril 26, 2016

本文实例讲述了PHP抓取及分析网页的方法。分享给大家供大家参考，具体如下：

抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开始吧！

首先，我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简单起见，让我们将变量直接设在脚本中。

<?php
$url = 'http://www.php.net';
?>

第二步，我们抓取指定文件，并且通过file()函数将它存在一个数组里。

<?php
$url = 'http://www.php.net';
$lines_array = file($url);
?>

好了，现在在数组里已经有了文件了。但是，我们想分析的文本可能不全在一行里面。为了解决这个文件，我们可以简单地将数组$lines_array转化成一个字符串。我们可以使用implode(x,y)函数来实现它。如果在后面你想用explode(将字符串变量数组)，将x设成"|"或"!"或其它类似的分隔符可能会更好。但是出于我们的目的，最好将x设成空格。y是另一个必要的参数，因为它是你想用implode()处理的数组。

<?php
$url = 'http://www.php.net';
$lines_array = file($url);
$lines_string = implode('', $lines_array);
?>

现在，抓取工作就做完了，下面该进行分析了。出于这个例子的目的，我们想得到在<head>到</head>之间的所有东西。为了分析出字符串，我们还需要叫做正规表达式的东西。

<?php
$url = 'http://www.php.net';
$lines_array = file($url);
$lines_string = implode('', $lines_array);
eregi("<head>(.*)</head>", $lines_string, $head);
?>

让我们看一下代码。正如你所见，eregi()函数按下面的格式执行：

eregi("<head>(.*)</head>", $lines_string, $head);

"(.*)"表示所有东西，可以解释为，"分析在<head>和</head>间的所以东西"。$lines_string是我们正在分析的字符串，$head是分析后的结果存放的数组。

最后，我们可以输数据。因为仅在<head>和</head>间存在一个实例，我们可以安全的假设数组中仅存在着一个元素，而且就是我们想要的。让我们把它打印出来吧。

<?php
$url = 'http://www.php.net';
$lines_array = file($url);
$lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head);
echo $head[0];
?>

这就是全部的代码了。

<?php
//获取所有内容url保存到文件
function get_index ( $save_file , $prefix = "index_" ){
   $count = 68 ;
   $i = 1 ;
  if ( file_exists ( $save_file )) @ unlink ( $save_file );
   $fp = fopen ( $save_file , "a+" ) or die( "Open " . $save_file . " failed" );
  while( $i < $count ){
     $url = $prefix . $i . ".htm" ;
    echo "Get " . $url . "..." ;
     $url_str = get_content_url ( get_url ( $url ));
    echo " OK/n" ;
     fwrite ( $fp , $url_str );
    ++ $i ;
  }
   fclose ( $fp );
}
//获取目标多媒体对象
function get_object ( $url_file , $save_file , $split = "|--:**:--|" ){
  if (! file_exists ( $url_file )) die( $url_file . " not exist" );
   $file_arr = file ( $url_file );
  if (! is_array ( $file_arr ) || empty( $file_arr )) die( $url_file . " not content" );
   $url_arr = array_unique ( $file_arr );
  if ( file_exists ( $save_file )) @ unlink ( $save_file );
   $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" );
  foreach( $url_arr as $url ){
    if (empty( $url )) continue;
    echo "Get " . $url . "..." ;
     $html_str = get_url ( $url );
    echo $html_str ;
    echo $url ;
    exit;
     $obj_str = get_content_object ( $html_str );
    echo " OK/n" ;
     fwrite ( $fp , $obj_str );
  }
   fclose ( $fp );
}
//遍历目录获取文件内容
function get_dir ( $save_file , $dir ){
   $dp = opendir ( $dir );
  if ( file_exists ( $save_file )) @ unlink ( $save_file );
   $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" );
  while(( $file = readdir ( $dp )) != false ){
    if ( $file != "." && $file != ".." ){
      echo "Read file " . $file . "..." ;
       $file_content = file_get_contents ( $dir . $file );
       $obj_str = get_content_object ( $file_content );
      echo " OK/n" ;
       fwrite ( $fp , $obj_str );
    }
  }
   fclose ( $fp );
}
//获取指定url内容
function get_url ( $url ){
   $reg = '/^http:////[^//].+$/' ;
  if (! preg_match ( $reg , $url )) die( $url . " invalid" );
   $fp = fopen ( $url , "r" ) or die( "Open url: " . $url . " failed." );
  while( $fc = fread ( $fp , 8192 )){
     $content .= $fc ;
  }
   fclose ( $fp );
  if (empty( $content )){
    die( "Get url: " . $url . " content failed." );
  }
  return $content ;
}
//使用socket获取指定网页
function get_content_by_socket ( $url , $host ){
   $fp = fsockopen ( $host , 80 ) or die( "Open " . $url . " failed" );
   $header = "GET /" . $url . " HTTP/1.1/r/n" ;
   $header .= "Accept: */*/r/n" ;
   $header .= "Accept-Language: zh-cn/r/n" ;
   $header .= "Accept-Encoding: gzip, deflate/r/n" ;
   $header .= "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)/r/n" ;
   $header .= "Host: " . $host . "/r/n" ;
   $header .= "Connection: Keep-Alive/r/n" ;
   //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-/r/n/r/n";
   $header .= "Connection: Close/r/n/r/n" ;
   fwrite ( $fp , $header );
   while (! feof ( $fp )) {
     $contents .= fgets ( $fp , 8192 );
   }
   fclose ( $fp );
   return $contents ;
}
//获取指定内容里的url
function get_content_url ( $host_url , $file_contents ){
   //$reg = '/^(#|<a href="http://lib.csdn.net/base/18" class='replace_word' title="JavaScript知识库" target='_blank' style='color:#df3434; font-weight:bold;'>JavaScript</a>.*?|ftp:////.+|http:////.+|.*?href.*?|play.*?|index.*?|.*?asp)+$/i';
   //$reg = '/^(down.*?/.html|/d+_/d+/.htm.*?)$/i';
   $rex = "/([hH][rR][eE][Ff])/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*/i" ;
   $reg = '/^(down.*?/.html)$/i' ;
   preg_match_all ( $rex , $file_contents , $r );
   $result = "" ; //array();
   foreach( $r as $c ){
    if ( is_array ( $c )){
      foreach( $c as $d ){
        if ( preg_match ( $reg , $d )){ $result .= $host_url . $d . "/n" ; }
      }
    }
  }
  return $result ;
}
//获取指定内容中的多媒体文件
function get_content_object ( $str , $split = "|--:**:--|" ){
   $regx = "/href/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*(.*?<//b>)/i" ;
   preg_match_all ( $regx , $str , $result );
  if ( count ( $result ) == 3 ){
     $result [ 2 ] = str_replace ( "多媒体： " , "" , $result [ 2 ]);
     $result [ 2 ] = str_replace ( " " , "" , $result [ 2 ]);
     $result = $result [ 1 ][ 0 ] . $split . $result [ 2 ][ 0 ] . "/n" ;
  }
  return $result ;
}
?>

希望本文所述对大家PHP程序设计有所帮助。

PHP抓取及分析网页的方法详解

- Author -

布鲁斯大人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

强烈推荐：php.ini中文版(1)

Oct 09 PHP

如何从一个php文件向另一个地址post数据，不用表单和隐藏的变量的

Mar 06 PHP

实现php加速的eAccelerator dll支持文件打包下载

Sep 30 PHP

php excel reader读取excel内容存入数据库实现代码

Dec 06 PHP

关于Sphinx创建全文检索的索引介绍

Jun 25 PHP

PHP捕获Fatal error错误的方法

Jun 11 PHP

PHP内核探索:哈希表碰撞攻击原理

Jul 31 PHP

PHP面试题之文件目录操作

Oct 15 PHP

php mailer类调用远程SMTP服务器发送邮件实现方法

Mar 04 PHP

用PHP的反射实现委托模式的讲解

Mar 22 PHP

JS(jQuery)实现聊天接收到消息语言自动提醒功能详解【提示“您有新的消息请注意查收”】

Apr 16 PHP

PHP Pipeline 实现中间件的示例代码

Apr 26 PHP

深入浅析yii2-gii自定义模板的方法

Apr 26 #PHP

基于PHP实现通过照片获取ip地址

Apr 26 #PHP

各种快递查询--Api接口

Apr 26 #PHP

浅析Yii2集成富文本编辑器redactor实例教程

Apr 25 #PHP

Yii2增加验证码步骤详解

Apr 25 #PHP

Yii实现显示静态页的方法

Apr 25 #PHP

mysql_escape_string()函数用法分析

Apr 25 #PHP

You might like

浅谈php优化需要注意的地方

2014/11/27 PHP

详解PHP中的Traits

2015/07/29 PHP

js控制框架刷新

2008/08/01 Javascript

jQuery获取css z-index在各种浏览器中的返回值

2010/09/15 Javascript

jQuery 表单验证扩展(四)

2010/10/20 Javascript

node.js中的buffer.Buffer.byteLength方法使用说明

2014/12/10 Javascript

JSONObject使用方法详解

2015/12/17 Javascript

jQuery+Ajax+PHP弹出层异步登录效果(附源码下载)

2016/05/27 Javascript

全面解析JavaScript中apply和call以及bind(推荐)

2016/06/15 Javascript

JS控制FileUpload的上传文件类型实例代码

2016/10/07 Javascript

微信小程序开发经验总结（推荐）

2017/01/11 Javascript

Vue.js展示AJAX数据简单示例讲解

2017/03/29 Javascript

Vue cli 引入第三方JS和CSS的常用方法分享

2018/01/20 Javascript

js实现敏感词过滤算法及实现逻辑

2018/07/24 Javascript

vue-cli3.0 环境变量与模式配置方法

2018/11/08 Javascript

纯javascript实现选择框的全选与反选功能

2019/04/08 Javascript

Vant picker 多级联动操作

2020/11/02 Javascript

python通过openpyxl生成Excel文件的方法

2015/05/12 Python

探究Python中isalnum()方法的使用

2015/05/18 Python

Python手机号码归属地查询代码

2016/05/04 Python

django站点管理详解

2017/12/12 Python

PyTorch基本数据类型（一）

2019/05/22 Python

python3的数据类型及数据类型转换实例详解

2019/08/20 Python

使用pyshp包进行shapefile文件修改的例子

2019/12/06 Python

HTML5 weui使用笔记

2019/11/21 HTML / CSS

Origins悦木之源英国官网：雅诗兰黛集团高端植物护肤品牌

2017/11/06 全球购物

The North Face官方旗舰店：美国著名户外品牌

2020/09/28 全球购物

工程造价与财务管理专业应届生求职信

2013/10/06 职场文书

应聘教师推荐信

2013/10/31 职场文书

结婚典礼证婚词

2014/01/11 职场文书

供货协议书

2014/04/22 职场文书

社区平安建设汇报材料

2014/08/14 职场文书

优秀班主任推荐材料

2014/12/17 职场文书

违纪学生保证书

2015/02/27 职场文书

给校长的建议书作文300字

2015/09/14 职场文书

员工保密协议范本，您一定得收藏！很有用！

2019/08/08 职场文书