PHP 超链接 抓取实现代码


Posted in PHP onJune 29, 2009

通用HTML标准超链接参数取得正则表达式测试
因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接。
大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接。
测试代码如下:

<?php 
// -------------------------------------------------------------------------- 
// File name : Noname1.php 
// Description : 通用链接参数获取正则表达式测试 
// Requirement : PHP4 (http://www.php.net) 
// Copyright(C), HonestQiao, 2005, All Rights Reserved. 
// Author: HonestQiao (honestqiao@hotmail.com) 
// 参数说明: 
// $strSource: 包含标准链接的HTML网页 
// $strResult: 处理的结果 
// 附加说明: 
// 标准链接,使用<a></a>形势包含的链接 
// -------------------------------------------------------------------------- 
$strSource = <<<HTML 
<a href=1.htm>t1</a> 
<a href='2.htm'>t2</a> 
<a href="3.htm">t3</a> 
<a href=4.htm class=link>t4</a> 
HTML; 
preg_match_all('/<a.*?(?: \\t\\r\\n)?href=[\'"]?(.+?)[\'"]?(?:(?: \\t\\r\\n)+.*?)?>(.+?)<\/a.*?>/sim', $strSource, $strResult, PREG_PATTERN_ORDER); 
for($i = 0; $i < count($strResult[1]); $i++) 
{ 
printf("%d href=(%s) title=(%s) \n", $i, $strResult[1][$i], $strResult[2][$i]); 
} 
?>

如果您的测试数据,符合标准链接,但是此处没有被处理出来,请告诉我测试数据,以及你的测试环境。
谢谢。
PHP 相关文章推荐
让你的网站首页自动选择语言转跳
Dec 06 PHP
PHP+AJAX实现无刷新注册(带用户名实时检测)
Jan 02 PHP
一步一步学习PHP(4) php 函数 补充2
Feb 15 PHP
php的ajax框架xajax入门与试用介绍
Dec 19 PHP
php 缩略图实现函数代码
Jun 23 PHP
php MessagePack介绍
Oct 06 PHP
PHP防止跨域提交表单
Nov 01 PHP
为百度UE编辑器上传图片添加水印功能
Apr 16 PHP
PHP图片添加水印功能示例小结
Oct 03 PHP
PHP实现将优酷土豆腾讯视频html地址转换成flash swf地址的方法
Aug 04 PHP
PHP微信支付结果通知与回调策略分析
Jan 10 PHP
php下的原生ajax请求用法实例分析
Feb 28 PHP
PHP 文件上传功能实现代码
Jun 24 #PHP
php addslashes 函数详细分析说明
Jun 23 #PHP
PHP n个不重复的随机数生成代码
Jun 23 #PHP
PHP 七大优势分析
Jun 23 #PHP
php 404错误页面实现代码
Jun 22 #PHP
PHP 多进程 解决难题
Jun 22 #PHP
PHP 高级课程笔记 面向对象
Jun 21 #PHP
You might like
PHP Web木马扫描器代码分享
2015/09/06 PHP
php中json_encode不兼容JSON_UNESCAPED_UNICODE的解决方案
2016/05/31 PHP
PHP关于foreach复制知识点总结
2019/01/28 PHP
PHP使用递归按层级查找数据的方法
2019/11/10 PHP
JavaScript入门教程(9) Document文档对象
2009/01/31 Javascript
Javascript中的return作用及javascript return关键字用法详解
2015/11/05 Javascript
vue数据双向绑定原理解析(get &amp; set)
2017/03/08 Javascript
详解如何在Angular中快速定位DOM元素
2017/05/17 Javascript
vue下跨域设置的相关介绍
2017/08/26 Javascript
JS简单获得节点元素的方法示例
2018/02/10 Javascript
[原创]jquery判断元素内容是否为空的方法
2018/05/04 jQuery
Vue隐藏显示、只读实例代码
2018/07/18 Javascript
Node.js对MongoDB进行增删改查操作的实例代码
2019/04/18 Javascript
解决 viewer.js 动态更新图片导致无法预览的问题
2019/05/14 Javascript
javascript实现抢购倒计时程序
2019/08/26 Javascript
JavaScript如何借用构造函数继承
2019/11/06 Javascript
微信小程序scroll-view实现滚动到锚点左侧导航栏点餐功能(点击种类,滚动到锚点)
2020/06/11 Javascript
[01:02]DOTA2上海特锦赛SHOWOPEN
2016/03/25 DOTA
Python 时间处理datetime实例
2008/09/06 Python
python使用rsa加密算法模块模拟新浪微博登录
2014/01/22 Python
在Python中使用cookielib和urllib2配合PyQuery抓取网页信息
2015/04/25 Python
python机器学习之神经网络实现
2018/10/13 Python
python enumerate内置函数用法总结
2020/01/07 Python
Python根据URL地址下载文件并保存至对应目录的实现
2020/11/15 Python
BeautifulSoup获取指定class样式的div的实现
2020/12/07 Python
CSS3 渐变(Gradients)之CSS3 径向渐变
2016/07/08 HTML / CSS
Dr. Martens马汀博士官网:马丁靴始祖品牌
2016/10/15 全球购物
英国浴室洗脸盆购物网站:Click Basin
2018/06/08 全球购物
个人自我鉴定范文
2013/10/04 职场文书
函授毕业生的自我鉴定
2013/11/26 职场文书
商业融资计划书
2014/04/29 职场文书
中国梦演讲稿3分钟
2014/08/19 职场文书
2014购房个人委托书范本
2014/10/12 职场文书
反邪教警示教育活动总结
2015/05/09 职场文书
python编写五子棋游戏
2021/05/25 Python
浅谈CSS不规则边框的生成方案
2021/05/25 HTML / CSS