编程 PHP

PHP 爬取网页的主要方法

Posted in PHP onJuly 13, 2018

主要流程就是获取整个网页，然后正则匹配（关键的）。

PHP抓取页面的主要方法,有几种方法是网上前辈的经验，现在还没有用到的，先存下来以后试试。

1.file()函数

2.file_get_contents()函数

3.fopen()->fread()->fclose()模式

4.curl方式（本人主要用这个）

5.fsockopen()函数 socket模式

6.插件(如：http://sourceforge.net/projects/snoopy/)

7.file()函数

<?php
//定义url
$url='[http://t.qq.com](http://t.qq.com/)';//fiel函数读取内容数组
$lines_array=file($url);//拆分数组为字符串
$lines_string=implode('',$lines_array);//输出内容
echo $lines_string;

2.使用file_get_contents方法实现，比较简单。

使用file_get_contents和fopen必须空间开启allow_url_fopen。方法：编辑php.ini，设置 allow_url_fopen = On，allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

$url="[http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml](http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml)";
$html=file_get_contents($url);
//如果出现中文乱码使用下面代码`
//$getcontent = iconv("gb2312", "utf-8",$html);
echo"<textarea style='width:800px;height:600px;'>".$html."</textarea>";

3.fopen()->fread()->fclose()模式，目前还没用过，看到了就先记下了

<?php
//定义url
$url='[http://t.qq.com](http://t.qq.com/)';//fopen以二进制方式打开 
$handle=fopen($url,"rb");//变量初始化
$lines_string="";//循环读取数据
do{
$data=fread($handle,1024);  
if(strlen($data)==0) {`
break; 
} 
$lines_string.=$data;
}while(true);//关闭fopen句柄，释放资源
fclose($handle);//输出内容
echo $lines_string;

4.使用curl实现（本人一般使用这个）。

使用curl必须空间开启curl。方法：windows下修改php.ini，将extension=php_curl.dll前面的分号去掉，而且需要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下；Linux下要安装curl扩展。

<?php
header("Content-Type: text/html;charset=utf-8");
date_default_timezone_set('PRC');
$url = "https://***********ycare";//要爬取的网址
$res = curl_get_contents($url);//curl封装方法
preg_match_all('/<script>(.*?)<\/script>/',$res,$arr_all);//这个网页中数据通过js包过来，所以直接抓js就可以
preg_match_all('/"id"\:"(.*?)",/',$arr_all[1][1],$arr1);//从js块中匹配要的数据
$list = array_unique($arr1[1]);//（可省）保证不重复
//以下则是同理，循环则可
for($i=0;$i<=6;$i=$i+2){
  $detail_url = 'ht*****em/'.$list[$i];
  $detail_res = curl_get_contents($detail_url);
  preg_match_all('/<script>(.*?)<\/script>/',$detail_res,$arr_detail);
  preg_match('/"desc"\:"(.*?)",/',$arr_detail[1][1],$arr_content);
  ***
    ***
    ***
  $ret=curl_post('http://**********cms.php',$result);//此脚本未放在服务器上，原因大家懂就好哈。
}
function curl_get_contents($url,$cookie='',$referer='',$timeout=300,$ishead=0) {
  $curl = curl_init();
  curl_setopt($curl, CURLOPT_RETURNTRANSFER,1);
  curl_setopt($curl, CURLOPT_FOLLOWLOCATION,1);
  curl_setopt($curl, CURLOPT_URL,$url);
  curl_setopt($curl, CURLOPT_TIMEOUT,$timeout);
  curl_setopt($curl, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36');
  if($cookie)
  {
    curl_setopt( $curl, CURLOPT_COOKIE,$cookie);
  }
  if($referer)
  {
    curl_setopt ($curl,CURLOPT_REFERER,$referer);
  }
  $ssl = substr($url, 0, 8) == "https://" ? TRUE : FALSE;
  if ($ssl)
  {
    curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
    curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
  }
  $res = curl_exec($curl);
  return $res;
  curl_close($curl);
}
//curl post数据到服务器
function curl_post($url,$data){
  $ch = curl_init();
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  //curl_setopt($ch,CURLOPT_FOLLOWLOCATION, 1);
  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
  curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36');
  curl_setopt($ch,CURLOPT_URL,$url);
  curl_setopt($ch,CURLOPT_POST,true);
  curl_setopt($ch,CURLOPT_POSTFIELDS,$data);
  $output = curl_exec($ch);
  curl_close($ch);
  return $output; 
}
?>

5.fsockopen()函数 socket模式（没用过，以后可以试试）

socket模式能否正确执行，也跟服务器的设置有关系，具体可以通过phpinfo查看服务器开启了哪些通信协议

<?php
$fp = fsockopen("t.qq.com", 80, $errno, $errstr, 30);
if (!$fp) {
  echo "$errstr ($errno)<br />\n";
} else {
  $out = "GET / HTTP/1.1\r\n";
  $out .= "Host: t.qq.com\r\n";
  $out .= "Connection: Close\r\n\r\n";
  fwrite($fp, $out);
  while (!feof($fp)) {
    echo fgets($fp, 128);
  }
  fclose($fp);
}

6.snoopy插件，最新版本是Snoopy-1.2.4.zip Last Update: 2013-05-30，推荐大家使用

使用网上非常流行的snoopy来进行采集，这是一个非常强大的采集插件，并且它的使用非常方便，你也可以在里面设置agent来模拟浏览器信息。

说明：设置agent是在 Snoopy.class.php 文件的第45行，请在该文件中搜索 “var 公式输入有误_SERVER['HTTP_USER_AGENT']; 可以得到浏览器信息，将echo出来的内容复制到agent里面就可以了。

<?php
//引入snoopy的类文件
require('Snoopy.class.php');
//初始化snoopy类
$snoopy=new Snoopy;
$url="[http://t.qq.com](http://t.qq.com/)";
//开始采集内容`
$snoopy->fetch($url);
//保存采集内容到$lines_string
$lines_string=$snoopy->results;
//输出内容，嘿嘿，大家也可以保存在自己的服务器上
echo $lines_string;

总结

以上所述是小编给大家介绍的PHP 爬取网页的主要方法，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

PHP 爬取网页的主要方法

- Author -

Sean-zhou

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

yii框架源码分析之创建controller代码

Jun 28 PHP

php数组函数序列之array_splice() - 在数组任意位置插入元素

Nov 07 PHP

PHP 异步执行方法,模拟多线程的应用分析

Jun 03 PHP

慎用preg_replace危险的/e修饰符(一句话后门常用)

Jun 19 PHP

基于simple_html_dom的使用小结

Jul 01 PHP

php发送get、post请求的6种方法简明总结

Jul 08 PHP

安装ImageMagick出现error while loading shared libraries的解决方法

Sep 23 PHP

Cygwin中安装PHP方法步骤

Jul 04 PHP

PHP基于单例模式实现的mysql类

Jan 09 PHP

PHP中的Trait 特性及作用

Apr 03 PHP

asp.net和php的区别点总结

Oct 10 PHP

Thinkphp框架使用list_to_tree 实现无限级分类列出所有节点示例

Apr 04 PHP

php实现微信发红包功能

Jul 13 #PHP

Yii2框架redis基本应用示例

Jul 13 #PHP

Yii2框架实现登陆添加验证码功能示例

Jul 12 #PHP

Yii框架日志记录Logging操作示例

Jul 12 #PHP

php unlink()函数使用教程

Jul 12 #PHP

总结PHP代码规范、流程规范、git规范

Jun 18 #PHP

针对thinkPHP5框架存储过程bug重写的存储过程扩展类完整实例

Jun 16 #PHP

You might like

PHP iconv 解决utf-8和gb2312编码转换问题

2010/04/12 PHP

PHP的MVC模式实现原理分析（一相简单的MVC框架范例）

2014/04/29 PHP

PHP输出日历表代码实例

2015/03/27 PHP

thinkPHP5项目中实现QQ第三方登录功能

2017/10/20 PHP

JavaScript版代码高亮

2006/06/26 Javascript

javascript 打印内容方法小结

2009/11/04 Javascript

JavaScript 学习笔记（十四）正则表达式

2010/01/22 Javascript

jquery中attr和prop的区别分析

2015/03/16 Javascript

解析浏览器端的AJAX缓存机制

2016/06/21 Javascript

浅谈JavaScript 数据属性和访问器属性

2016/09/01 Javascript

JavaScript中绑定事件的三种方式及去除绑定

2016/11/05 Javascript

微信小程序 HTTPS报错整理常见问题及解决方案

2016/12/14 Javascript

百度地图JavascriptApi Marker平滑移动及车头指向行径方向

2017/03/13 Javascript

React组件生命周期详解

2017/07/03 Javascript

父组件中vuex方法更新state子组件不能及时更新并渲染的完美解决方法

2018/04/25 Javascript

解决vue elementUI中table里数字、字母、中文混合排序问题

2020/01/07 Javascript

js实现数字跳动到指定数字

2020/08/25 Javascript

Jquery $.map使用方法实例详解

2020/09/01 jQuery

vue实现可移动的悬浮按钮

2021/03/04 Vue.js

Python中的自定义函数学习笔记

2014/09/23 Python

简单介绍Python中的JSON使用

2015/04/28 Python

微信跳一跳python辅助脚本（总结）

2018/01/11 Python

Python中断多重循环的思路总结

2019/10/04 Python

django实现支付宝支付实例讲解

2019/10/17 Python

python入门之基础语法学习笔记

2020/02/08 Python

python实现输入三角形边长自动作图求面积案例

2020/04/12 Python

Python SQLAlchemy库的使用方法

2020/10/13 Python

全球知名巧克力品牌：Godiva

2016/07/22 全球购物

稀有和绝版书籍：Biblio.com

2017/02/02 全球购物

Michael Kors加拿大官网：购买设计师手袋、手表、鞋子、服装等

2019/03/16 全球购物

新闻学专业个人求职信写作

2014/02/04 职场文书

财产公证书样本

2014/04/04 职场文书

见习报告格式要求

2014/11/04 职场文书

云台山导游词

2015/02/03 职场文书

CSS3鼠标悬浮过渡缩放效果

2021/04/17 HTML / CSS

七个非常实用的Python工具包总结

2021/06/15 Python