PHP抓取网页、解析HTML常用的方法总结


Posted in PHP onJuly 01, 2015

概述

爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具,如snoopy,这些开源的爬虫工具,通常能帮我们完成大部分功能,但是在某种情况下,我们需要自己实现一个爬虫,本篇文章对PHP实现爬虫的方式做个总结。

PHP实现爬虫主要方法

1.file()函数
2.file_get_contents()函数
3.fopen()->fread()->fclose()方式
4.curl方式
5.fsockopen()函数,socket方式
6.使用开源工具,如:snoopy

PHP解析XML或HTML主要方式

1.正则表达式
2.PHP DOMDocument对象
3.插件,如:PHP Simple HTML DOM Parser

总结

这里对PHP实现爬虫的方式做个简单得总结,本篇设计到得内容还有很多,稍后会对PHP解析HTML和XML的方式做个总结。

PHP 相关文章推荐
一个目录遍历函数
Oct 09 PHP
网页游戏开发入门教程二(游戏模式+系统)
Nov 02 PHP
深入php define()函数以及defined()函数的用法详解
Jun 05 PHP
使用迭代器 遍历文件信息的详解
Jun 08 PHP
PHP操作Memcache实例介绍
Jun 14 PHP
PHP获取服务器端信息的方法
Nov 28 PHP
Linux系统下PHP-FPM的安装和配置教程
Aug 17 PHP
ecshop适应在PHP7的修改方法解决报错的实现
Nov 01 PHP
Yii框架引用插件和ckeditor中body与P标签去除的方法
Jan 19 PHP
Ubuntu彻底删除PHP7.0的方法
Jul 27 PHP
laravel + vue实现的数据统计绘图(今天、7天、30天数据)
Jul 31 PHP
Linux系统下安装PHP7.3版本
Jun 26 PHP
PHP中static关键字以及与self关键字的区别
Jul 01 #PHP
PHP单例模式详细介绍
Jul 01 #PHP
curl和libcurl的区别简介
Jul 01 #PHP
PHP+Ajax实时自动检测是否联网的方法
Jul 01 #PHP
PHP超全局数组(Superglobals)介绍
Jul 01 #PHP
PHP中的类型提示(type hinting)功能介绍
Jul 01 #PHP
7个鲜为人知却非常实用的PHP函数
Jul 01 #PHP
You might like
比较全面的PHP数组的使用方法小结
2010/09/23 PHP
有关phpmailer的详细介绍及使用方法
2013/01/28 PHP
JavaScript Event学习第十章 一些可替换的事件对
2010/02/10 Javascript
如何阻止复制剪切和粘贴事件为了表单内容的安全
2013/05/23 Javascript
jquery序列化方法实例分析
2015/06/10 Javascript
基于Arcgis for javascript实现百度地图ABCD marker的效果
2015/09/12 Javascript
JavaScript判断按钮被点击的方法
2015/12/13 Javascript
分享我对JS插件开发的一些感想和心得
2016/02/04 Javascript
javaScript基础详解
2017/01/19 Javascript
JavaScript实现鼠标点击导航栏变色特效
2017/02/08 Javascript
JS正则表达式验证账号、手机号、电话和邮箱是否合法
2017/03/08 Javascript
vue路由懒加载的实现方法
2018/03/12 Javascript
原生JS实现的简单小钟表功能示例
2018/08/30 Javascript
Vue点击切换颜色的方法
2018/09/13 Javascript
Vue一次性简洁明了引入所有公共组件的方法
2018/11/28 Javascript
使用VScode 插件debugger for chrome 调试react源码的方法
2019/09/13 Javascript
JS co 函数库的含义和用法实例总结
2020/04/08 Javascript
JavaScript图像放大镜效果实现方法详解
2020/06/28 Javascript
基于JavaScript实现大文件上传后端代码实例
2020/08/18 Javascript
vue 如何使用递归组件
2020/10/23 Javascript
[55:56]NB vs Infamous 2019国际邀请赛淘汰赛 败者组 BO3 第二场 8.22
2019/09/05 DOTA
pycharm 使用心得(二)设置字体大小
2014/06/05 Python
python调用matplotlib模块绘制柱状图
2019/10/18 Python
python多继承(钻石继承)问题和解决方法简单示例
2019/10/21 Python
python 正则表达式参数替换实例详解
2020/01/17 Python
Django Channel实时推送与聊天的示例代码
2020/04/30 Python
html5 乒乓球(碰撞检测)实例二
2013/07/25 HTML / CSS
wordpress添加Html5的表单验证required方法小结
2020/08/18 HTML / CSS
Bally巴利英国官网:经典瑞士鞋履、手袋及配饰奢侈品牌
2018/05/07 全球购物
中国一家专注拼团的社交购物网站:拼多多
2018/06/13 全球购物
俄罗斯运动、健康和美容产品在线商店:Lactomin.ru
2020/07/23 全球购物
教育系毕业生中文求职信范文
2013/10/06 职场文书
十佳大学生事迹材料
2014/01/29 职场文书
党员“四风”方面存在问题及整改措施
2014/09/24 职场文书
琅琊山导游词
2015/02/05 职场文书
python中的random模块和相关函数详解
2022/04/22 Python