PHP抓取网页、解析HTML常用的方法总结


Posted in PHP onJuly 01, 2015

概述

爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具,如snoopy,这些开源的爬虫工具,通常能帮我们完成大部分功能,但是在某种情况下,我们需要自己实现一个爬虫,本篇文章对PHP实现爬虫的方式做个总结。

PHP实现爬虫主要方法

1.file()函数
2.file_get_contents()函数
3.fopen()->fread()->fclose()方式
4.curl方式
5.fsockopen()函数,socket方式
6.使用开源工具,如:snoopy

PHP解析XML或HTML主要方式

1.正则表达式
2.PHP DOMDocument对象
3.插件,如:PHP Simple HTML DOM Parser

总结

这里对PHP实现爬虫的方式做个简单得总结,本篇设计到得内容还有很多,稍后会对PHP解析HTML和XML的方式做个总结。

PHP 相关文章推荐
图书管理程序(三)
Oct 09 PHP
删除及到期域名的查看(抢域名必备哦)
May 14 PHP
windows下升级PHP到5.3.3的过程及注意事项
Oct 12 PHP
php学习笔记之 函数声明
Jun 09 PHP
显示youtube视频缩略图和Vimeo视频缩略图代码分享
Feb 13 PHP
YII中assets的使用示例
Jul 31 PHP
php结合正则批量抓取网页中邮箱地址
May 19 PHP
浅谈PHP中output_buffering
Jul 13 PHP
php array_keys 返回数组的键名
Oct 25 PHP
PHP合并数组函数array_merge用法分析
Feb 17 PHP
PHP设计模式之模板方法模式实例浅析
Dec 20 PHP
PHP-FPM的配置与优化讲解
Mar 15 PHP
PHP中static关键字以及与self关键字的区别
Jul 01 #PHP
PHP单例模式详细介绍
Jul 01 #PHP
curl和libcurl的区别简介
Jul 01 #PHP
PHP+Ajax实时自动检测是否联网的方法
Jul 01 #PHP
PHP超全局数组(Superglobals)介绍
Jul 01 #PHP
PHP中的类型提示(type hinting)功能介绍
Jul 01 #PHP
7个鲜为人知却非常实用的PHP函数
Jul 01 #PHP
You might like
实现树状结构的两种方法
2006/10/09 PHP
使用php判断服务器是否支持Gzip压缩功能
2013/09/24 PHP
PHP curl CURLOPT_RETURNTRANSFER参数的作用使用实例
2015/02/07 PHP
php对xml文件的增删改查操作实现方法分析
2017/05/19 PHP
jQuery 技巧大全(新手入门篇)
2009/05/12 Javascript
JS解析XML的实现代码
2009/11/12 Javascript
javascript 数组学习资料收集
2010/04/11 Javascript
监控 url fragment变化的js代码
2010/04/19 Javascript
javascript实现全角半角检测的方法
2015/07/23 Javascript
JS阻止事件冒泡行为和闭包的方法
2016/06/16 Javascript
详解Angular.js的$q.defer()服务异步处理
2016/11/06 Javascript
简单实现js浮动框
2016/12/13 Javascript
JavaScript mixin实现多继承的方法详解
2017/03/30 Javascript
vuejs中监听窗口关闭和窗口刷新事件的方法
2018/09/21 Javascript
通过循环优化 JavaScript 程序
2019/06/24 Javascript
[01:29]Ti4循环赛第三日精彩回顾
2014/07/13 DOTA
python定时检查启动某个exe程序适合检测exe是否挂了
2013/01/21 Python
pygame学习笔记(5):游戏精灵
2015/04/15 Python
python编写爬虫小程序
2015/05/14 Python
Python的Django框架安装全攻略
2015/07/15 Python
python中import学习备忘笔记
2017/01/24 Python
python中pandas.DataFrame排除特定行方法示例
2017/03/12 Python
Python做简单的字符串匹配详解
2017/03/21 Python
python实现关键词提取的示例讲解
2018/04/28 Python
python基于C/S模式实现聊天室功能
2019/01/09 Python
Django中reverse反转并且传递参数的方法
2019/08/06 Python
在python中利用pycharm自定义代码块教程(三步搞定)
2020/04/15 Python
详解用Python爬虫获取百度企业信用中企业基本信息
2020/07/02 Python
Python中Yield的基本用法
2020/10/18 Python
英国在线电子和小工具商店:TecoBuy
2018/10/06 全球购物
WWE美国职业摔角官方商店:WWE Shop
2018/11/15 全球购物
英国高级健康和美容产品零售商:Life and Looks
2019/08/01 全球购物
在校生汽车维修实习自我鉴定
2013/09/19 职场文书
新闻工作者先进事迹
2014/05/26 职场文书
村级个人对照检查材料
2014/08/22 职场文书
2016年禁毒宣传活动总结
2016/04/05 职场文书