PHP 超链接 抓取实现代码


Posted in PHP onJune 29, 2009

通用HTML标准超链接参数取得正则表达式测试
因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接。
大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接。
测试代码如下:

<?php 
// -------------------------------------------------------------------------- 
// File name : Noname1.php 
// Description : 通用链接参数获取正则表达式测试 
// Requirement : PHP4 (http://www.php.net) 
// Copyright(C), HonestQiao, 2005, All Rights Reserved. 
// Author: HonestQiao (honestqiao@hotmail.com) 
// 参数说明: 
// $strSource: 包含标准链接的HTML网页 
// $strResult: 处理的结果 
// 附加说明: 
// 标准链接,使用<a></a>形势包含的链接 
// -------------------------------------------------------------------------- 
$strSource = <<<HTML 
<a href=1.htm>t1</a> 
<a href='2.htm'>t2</a> 
<a href="3.htm">t3</a> 
<a href=4.htm class=link>t4</a> 
HTML; 
preg_match_all('/<a.*?(?: \\t\\r\\n)?href=[\'"]?(.+?)[\'"]?(?:(?: \\t\\r\\n)+.*?)?>(.+?)<\/a.*?>/sim', $strSource, $strResult, PREG_PATTERN_ORDER); 
for($i = 0; $i < count($strResult[1]); $i++) 
{ 
printf("%d href=(%s) title=(%s) \n", $i, $strResult[1][$i], $strResult[2][$i]); 
} 
?>

如果您的测试数据,符合标准链接,但是此处没有被处理出来,请告诉我测试数据,以及你的测试环境。
谢谢。
PHP 相关文章推荐
用户的详细注册和判断
Oct 09 PHP
用Zend Encode编写开发PHP程序
Feb 21 PHP
PHP正则的Unknown Modifier错误解决方法
Mar 02 PHP
比较discuz和ecshop的截取字符串函数php版
Sep 03 PHP
PHP处理JSON字符串key缺少双引号的解决方法
Sep 16 PHP
php实现字符串首字母大写和单词首字母大写的方法
Mar 14 PHP
Yii获取当前url和域名的方法
Jun 08 PHP
PHP实现的oracle分页函数实例
Jan 25 PHP
ThinkPHP下表单令牌错误与解决方法分析
May 20 PHP
Laravel中的Auth模块详解
Aug 17 PHP
php往mysql中批量插入数据实例教程
Dec 12 PHP
CentOS7系统搭建LAMP及更新PHP版本操作详解
Mar 26 PHP
PHP 文件上传功能实现代码
Jun 24 #PHP
php addslashes 函数详细分析说明
Jun 23 #PHP
PHP n个不重复的随机数生成代码
Jun 23 #PHP
PHP 七大优势分析
Jun 23 #PHP
php 404错误页面实现代码
Jun 22 #PHP
PHP 多进程 解决难题
Jun 22 #PHP
PHP 高级课程笔记 面向对象
Jun 21 #PHP
You might like
PHP生成UTF8文件的方法
2010/05/15 PHP
PHP中集成PayPal标准支付的实现方法分享
2012/02/06 PHP
浅析php过滤html字符串,防止SQL注入的方法
2013/07/02 PHP
php获取一定范围内取N个不重复的随机数
2016/05/28 PHP
PHP Ajax JavaScript Json获取天气信息实现代码
2016/08/17 PHP
Windows上php5.6操作mongodb数据库示例【配置、连接、获取实例】
2019/02/13 PHP
javascript 原型模式实现OOP的再研究
2009/04/09 Javascript
Jquery实现搜索框提示功能示例代码
2013/08/13 Javascript
JavaScript中的Math.LN2属性用法详解
2015/06/12 Javascript
jQuery实现图片走马灯效果的原理分析
2016/01/16 Javascript
使用JS轻松实现ionic调用键盘搜索功能(超实用)
2016/09/06 Javascript
jQuery的事件预绑定
2016/12/05 Javascript
jQuery实现图片滑动效果
2017/03/08 Javascript
关于Promise 异步编程的实例讲解
2017/09/01 Javascript
vue组件初学_弹射小球(实例讲解)
2017/09/06 Javascript
去掉vue 中的代码规范检测两种方法(Eslint验证)
2018/03/21 Javascript
修改Nodejs内置的npm默认配置路径方法
2018/05/13 NodeJs
JavaScript解决浮点数计算不准确问题的方法分析
2018/07/09 Javascript
[52:44]VGJ.T vs infamous Supermajor小组赛D组败者组第一轮 BO3 第一场 6.3
2018/06/04 DOTA
Python使用matplotlib绘制正弦和余弦曲线的方法示例
2018/01/06 Python
python执行系统命令后获取返回值的几种方式集合
2018/05/12 Python
Python代码块批量添加Tab缩进的方法
2018/06/25 Python
Python连接Redis的基本配置方法
2018/09/13 Python
python+opencv实现移动侦测(帧差法)
2020/03/20 Python
pytorch  网络参数 weight bias 初始化详解
2020/06/24 Python
Django haystack实现全文搜索代码示例
2020/11/28 Python
Ibood荷兰:互联网每日最佳在线优惠
2019/02/28 全球购物
美国精品地毯网站:Boutique Rugs
2020/03/04 全球购物
采用怎样的方法保证数据的完整性
2013/12/02 面试题
电气自动化自荐信
2013/10/10 职场文书
表扬信格式
2014/01/12 职场文书
安全责任书模板
2014/07/22 职场文书
教师节慰问信
2015/02/15 职场文书
AI:如何训练机器学习的模型
2021/04/16 Python
zabbix agent2 监控oracle数据库的方法
2021/05/13 Oracle
sql字段解析器的实现示例
2021/06/23 SQL Server