php 信息采集程序代码


Posted in PHP onMarch 17, 2009
<? 
//采集首页地址 
$url="http://emotion.pclady.com.cn/skills/"; 
//获取页面代码 
$rs=file_get_contents($url); 
//设置匹配正则 
//$fp=fopen("text.txt","a"); 
//$fw=fwrite($fp,$rs); 
//fclose($fp); 
/*<I class=titles><A 
href="http://emotion.pclady.com.cn/skills/0903/376476.html" 
target=_blank>留住你身边的好男人</A></I>*/ 
$preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i'; 
//进行正则搜索 
preg_match_all($preg,$rs,$title); 
//计算标题数量 
$count=count($title[0]); 
echo $count."<br>"; 
//通过标题数量进行内容采集 
for ($i=0;$i<$count;$i++){ //设置内容页地址 
$pr='/<a\s+href=\"[^>]+\">/isU'; 
preg_match_all($pr,$title[0][$i],$jurl); 
$substr=substr($jurl[0][0],9); 
$curl=substr($substr,0,-18); 
//获取内容页代码 
$c=file_get_contents($curl); 
//设置内容页匹配正则 
$pc='/<a\s+href=\"[^>]+\">/i'; 
//进行正则匹配搜索 
preg_match($pc,$c,$content); 
//输出标题 
echo $title[0][$i]."<br>"; 
echo $title[1][$i]."<br>"; 
$concount=count($content[0]); 
echo $concount."<br>"; 
echo $content[0][0]; 
for ($j=0;$j<$concount;$j++){ 
} 
} 
?>

通过检测,$c已经是内容页的数据流了,可是$pc这个的正则表达式为什么只匹配<这个字符其他的都没有呢,是因为我上面用了subsrt()函数吗?还是什么问题?麻烦各位大侠指点迷津啊?
PHP 相关文章推荐
php array_intersect()函数使用代码
Jan 14 PHP
PHP中删除变量时unset()和null的区别分析
Jan 27 PHP
PHP的一个完美GIF等比缩放类,附带去除缩放黑背景
Apr 01 PHP
PHP实现的简单三角形、矩形周长面积计算器分享
Nov 18 PHP
浅谈ThinkPHP的URL重写
Nov 25 PHP
使用php转义输出HTML到JavaScript
Mar 27 PHP
php 遍历目录,生成目录下每个文件的md5值并写入到结果文件中
Dec 12 PHP
php批量转换文件夹下所有文件编码的函数类
Aug 06 PHP
PHPUnit测试私有属性和方法功能示例
Jun 12 PHP
tp5(thinkPHP5框架)captcha验证码配置及验证操作示例
May 28 PHP
Laravel 微信小程序后端实现用户登录的示例代码
Nov 26 PHP
Thinkphp框架+Layui实现图片/文件上传功能分析
Feb 07 PHP
php cookie 登录验证示例代码
Mar 16 #PHP
php 删除cookie和浏览器重定向
Mar 16 #PHP
php cookis创建实现代码
Mar 16 #PHP
php session应用实例 登录验证
Mar 16 #PHP
php session处理的定制
Mar 16 #PHP
php session 检测和注销
Mar 16 #PHP
php session 预定义数组
Mar 16 #PHP
You might like
php抓取页面与代码解析 推荐
2010/07/23 PHP
ThinkPHP 防止表单重复提交的方法
2011/08/08 PHP
PHP按指定键值对二维数组进行排序的方法
2015/12/22 PHP
基于PHP后台的Android新闻浏览客户端
2016/05/23 PHP
使用laravel的migrate创建数据表的方法
2019/09/30 PHP
准确获得页面、窗口高度及宽度的JS
2006/11/26 Javascript
对setInterval在火狐和chrome切换标签产生奇怪的效果之探索,与解决方案!
2011/10/29 Javascript
jQuery中after的两种用法实例
2013/07/03 Javascript
动态加载jquery库的方法
2014/02/12 Javascript
JS判断、校验MAC地址的2个实例
2014/05/05 Javascript
jquery实现清新实用的网页菜单效果
2015/08/28 Javascript
js实现简单排列组合的方法
2016/01/27 Javascript
Hammer.js+轮播原理实现简洁的滑屏功能
2016/02/02 Javascript
微信小程序 富文本转文本实例详解
2016/10/24 Javascript
vue 插值 v-once,v-text, v-html详解
2018/01/19 Javascript
了解重排与重绘
2019/05/29 Javascript
layui实现数据分页功能
2019/07/27 Javascript
解决vue中的无限循环问题
2020/07/27 Javascript
Python中的模块和包概念介绍
2015/04/13 Python
Python中使用bidict模块双向字典结构的奇技淫巧
2016/07/12 Python
Python爬虫之模拟知乎登录的方法教程
2017/05/25 Python
详解Golang 与python中的字符串反转
2017/07/21 Python
python中文分词教程之前向最大正向匹配算法详解
2017/11/02 Python
Python实现的人工神经网络算法示例【基于反向传播算法】
2017/11/11 Python
详解Python解决抓取内容乱码问题(decode和encode解码)
2019/03/29 Python
Python 中的 global 标识对变量作用域的影响
2019/08/12 Python
Django admin.py 在修改/添加表单界面显示额外字段的方法
2019/08/22 Python
python爬虫 正则表达式解析
2019/09/28 Python
OpenCV实现机器人对物体进行移动跟随的方法实例
2020/11/09 Python
德国EGOIST网店:销售畅销的设计师品牌
2017/04/18 全球购物
ECOSUSI官网:女式皮革背包
2019/09/27 全球购物
2015年党员自我剖析材料
2014/12/17 职场文书
围城读书笔记
2015/06/26 职场文书
python异步的ASGI与Fast Api实现
2021/07/16 Python
C#连接ORACLE出现乱码问题的解决方法
2021/10/05 Oracle
使用Ajax实现进度条的绘制
2022/04/07 Javascript