PHP抓取网页、解析HTML常用的方法总结


Posted in PHP onJuly 01, 2015

概述

爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具,如snoopy,这些开源的爬虫工具,通常能帮我们完成大部分功能,但是在某种情况下,我们需要自己实现一个爬虫,本篇文章对PHP实现爬虫的方式做个总结。

PHP实现爬虫主要方法

1.file()函数
2.file_get_contents()函数
3.fopen()->fread()->fclose()方式
4.curl方式
5.fsockopen()函数,socket方式
6.使用开源工具,如:snoopy

PHP解析XML或HTML主要方式

1.正则表达式
2.PHP DOMDocument对象
3.插件,如:PHP Simple HTML DOM Parser

总结

这里对PHP实现爬虫的方式做个简单得总结,本篇设计到得内容还有很多,稍后会对PHP解析HTML和XML的方式做个总结。

PHP 相关文章推荐
将RTF格式的文件转成HTML并在网页中显示的代码
Oct 09 PHP
php利用腾讯ip分享计划获取地理位置示例分享
Jan 20 PHP
PHP Hash算法:Times33算法代码实例
May 13 PHP
php实现scws中文分词搜索的方法
Dec 25 PHP
验证token、回复图文\文本、推送消息的实用微信类php代码
Jun 28 PHP
php app支付宝回调(异步通知)详解
Jul 25 PHP
yii2 上传图片的示例代码
Nov 02 PHP
PHP模型Model类封装数据库操作示例
Mar 14 PHP
Laravel推荐使用的十个辅助函数
May 10 PHP
laravel 解决Eloquent ORM的save方法无法插入数据的问题
Oct 21 PHP
在 PHP 和 Laravel 中使用 Traits的方法
Nov 13 PHP
PHP code 验证码生成类定义和简单使用示例
May 27 PHP
PHP中static关键字以及与self关键字的区别
Jul 01 #PHP
PHP单例模式详细介绍
Jul 01 #PHP
curl和libcurl的区别简介
Jul 01 #PHP
PHP+Ajax实时自动检测是否联网的方法
Jul 01 #PHP
PHP超全局数组(Superglobals)介绍
Jul 01 #PHP
PHP中的类型提示(type hinting)功能介绍
Jul 01 #PHP
7个鲜为人知却非常实用的PHP函数
Jul 01 #PHP
You might like
thinkphp文件处理类Dir.class.php的用法分析
2014/12/08 PHP
smarty高级特性之过滤器的使用方法
2015/12/25 PHP
php自定义扩展名获取函数示例
2016/12/12 PHP
PHP PDOStatement::bindColumn讲解
2019/01/30 PHP
PHP vsprintf()函数格式化字符串操作原理解析
2020/07/14 PHP
jquery 跨域访问问题解决方法(笔记)
2011/06/08 Javascript
页面元素绑定jquery toggle后元素隐藏的解决方法
2014/03/27 Javascript
js 动态修改css文件的方法
2014/08/05 Javascript
基于NodeJS的前后端分离的思考与实践(五)多终端适配
2014/09/26 NodeJs
AngularJS基础 ng-src 指令简单示例
2016/08/03 Javascript
AngularJs验证重复密码的方法(两种)
2016/11/25 Javascript
js图片轮播手动切换特效
2017/01/12 Javascript
详解angularjs 关于ui-router分层使用
2017/06/12 Javascript
详解Vue如何支持JSX语法
2017/11/10 Javascript
Angular6 用户自定义标签开发的实现方法
2019/01/08 Javascript
JS实现横向轮播图(初级版)
2020/06/24 Javascript
JS FormData对象使用方法实例详解
2020/02/12 Javascript
JavaScript进阶(三)闭包原理与用法详解
2020/05/09 Javascript
python实现逆波兰计算表达式实例详解
2015/05/06 Python
深入解析Python中的上下文管理器
2016/06/28 Python
Python线程指南详细介绍
2017/01/05 Python
Python在图片中添加文字的两种方法
2017/04/29 Python
python3.4.3下逐行读入txt文本并去重的方法
2018/04/29 Python
基于scrapy的redis安装和配置方法
2018/06/13 Python
Python中的单行、多行、中文注释方法
2018/07/19 Python
python for 循环获取index索引的方法
2019/02/01 Python
python PyAutoGUI 模拟鼠标键盘操作和截屏功能
2019/08/04 Python
python3 深浅copy对比详解
2019/08/12 Python
EVE LOM英国官网:全世界最好的洁面膏
2017/10/30 全球购物
在线购买澳大利亚设计师手拿包和奢华晚装手袋:Olga Berg
2019/03/20 全球购物
外贸学院会计专业应届生求职信
2013/11/14 职场文书
婚庆司仪主持词
2014/03/15 职场文书
消夏晚会主持词
2015/06/30 职场文书
如何设计高效合理的MySQL查询语句
2021/05/26 MySQL
JS 基本概念详细介绍
2021/10/16 Javascript
如何避免mysql启动时错误及sock文件作用分析
2022/01/22 MySQL