PHP抓取网页、解析HTML常用的方法总结


Posted in PHP onJuly 01, 2015

概述

爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具,如snoopy,这些开源的爬虫工具,通常能帮我们完成大部分功能,但是在某种情况下,我们需要自己实现一个爬虫,本篇文章对PHP实现爬虫的方式做个总结。

PHP实现爬虫主要方法

1.file()函数
2.file_get_contents()函数
3.fopen()->fread()->fclose()方式
4.curl方式
5.fsockopen()函数,socket方式
6.使用开源工具,如:snoopy

PHP解析XML或HTML主要方式

1.正则表达式
2.PHP DOMDocument对象
3.插件,如:PHP Simple HTML DOM Parser

总结

这里对PHP实现爬虫的方式做个简单得总结,本篇设计到得内容还有很多,稍后会对PHP解析HTML和XML的方式做个总结。

PHP 相关文章推荐
在PHP中使用Sockets 从Usenet中获取文件
Jan 10 PHP
php 文件上传系统手记
Oct 26 PHP
php htmlspecialchars加强版
Feb 16 PHP
函数中使用require_once问题深入探讨 优雅的配置文件定义方法推荐
Jul 02 PHP
codeigniter上传图片不能正确识别图片类型问题解决方法
Jul 25 PHP
PHP 9 大缓存技术总结
Sep 17 PHP
PHP的Yii框架的常用日志操作总结
Dec 08 PHP
php结合redis高并发下发帖、发微博的实现方法
Dec 15 PHP
PHP关键特性之命名空间实例详解
May 06 PHP
php获取文章内容第一张图片的方法示例
Jul 03 PHP
thinkPHP5框架auth权限控制类与用法示例
Jun 12 PHP
PHP正则匹配到2个字符串之间的内容方法
Dec 24 PHP
PHP中static关键字以及与self关键字的区别
Jul 01 #PHP
PHP单例模式详细介绍
Jul 01 #PHP
curl和libcurl的区别简介
Jul 01 #PHP
PHP+Ajax实时自动检测是否联网的方法
Jul 01 #PHP
PHP超全局数组(Superglobals)介绍
Jul 01 #PHP
PHP中的类型提示(type hinting)功能介绍
Jul 01 #PHP
7个鲜为人知却非常实用的PHP函数
Jul 01 #PHP
You might like
php读取msn上的用户信息类
2008/12/05 PHP
PHP Session机制简介及用法
2014/08/19 PHP
Laravel 5框架学习之表单验证
2015/04/08 PHP
Laravel中使用FormRequest进行表单验证方法及问题汇总
2016/06/19 PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
2016/12/14 PHP
PHP递归实现汉诺塔问题的方法示例
2017/11/25 PHP
图片之间的切换
2006/06/26 Javascript
alixixi runcode.asp的代码不错的应用
2007/08/08 Javascript
ppk谈JavaScript style属性
2008/10/10 Javascript
jquery的ajax请求全面了解
2013/03/20 Javascript
node.js使用npm 安装插件时提示install Error: ENOENT报错的解决方法
2014/11/20 Javascript
NodeJS学习笔记之MongoDB模块
2015/01/13 NodeJs
jquery单选框radio绑定click事件实现方法
2015/01/14 Javascript
浅谈javascript属性onresize
2015/04/20 Javascript
jquery实现点击展开列表同时隐藏其他列表
2015/08/10 Javascript
分享Javascript实用方法二
2015/12/13 Javascript
轻松5句话解决JavaScript的作用域
2016/07/15 Javascript
VUE开发一个图片轮播的组件示例代码
2017/03/06 Javascript
Node.js实现mysql连接池使用事务自动回收连接的方法示例
2018/02/03 Javascript
用vue快速开发app的脚手架工具
2018/06/11 Javascript
js中int和string数据类型互相转化实例
2019/01/16 Javascript
json 带斜杠时如何解析的实现
2019/08/12 Javascript
JavaScript获取时区实现过程解析
2020/09/24 Javascript
[05:09]第二届DOTA2亚洲邀请赛决赛日比赛集锦:iG 3:0 OG夺冠
2017/04/05 DOTA
Python采用Django开发自己的博客系统
2020/09/29 Python
对pandas replace函数的使用方法小结
2018/05/18 Python
python pandas 如何替换某列的一个值
2018/06/09 Python
解决Python 命令行执行脚本时,提示导入的包找不到的问题
2019/01/19 Python
tensorboard实现同时显示训练曲线和测试曲线
2020/01/21 Python
英格兰足协官方商店:England Store
2019/07/12 全球购物
监察建议书范文
2014/03/12 职场文书
学员自我鉴定
2014/03/19 职场文书
企业宗旨标语
2014/06/10 职场文书
教师节主题班会方案
2015/08/17 职场文书
Python中Cookies导出某站用户数据的方法
2021/05/17 Python
使用SQL实现车流量的计算的示例代码
2022/02/28 SQL Server