php 信息采集程序代码


Posted in PHP onMarch 17, 2009
<? 
//采集首页地址 
$url="http://emotion.pclady.com.cn/skills/"; 
//获取页面代码 
$rs=file_get_contents($url); 
//设置匹配正则 
//$fp=fopen("text.txt","a"); 
//$fw=fwrite($fp,$rs); 
//fclose($fp); 
/*<I class=titles><A 
href="http://emotion.pclady.com.cn/skills/0903/376476.html" 
target=_blank>留住你身边的好男人</A></I>*/ 
$preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i'; 
//进行正则搜索 
preg_match_all($preg,$rs,$title); 
//计算标题数量 
$count=count($title[0]); 
echo $count."<br>"; 
//通过标题数量进行内容采集 
for ($i=0;$i<$count;$i++){ //设置内容页地址 
$pr='/<a\s+href=\"[^>]+\">/isU'; 
preg_match_all($pr,$title[0][$i],$jurl); 
$substr=substr($jurl[0][0],9); 
$curl=substr($substr,0,-18); 
//获取内容页代码 
$c=file_get_contents($curl); 
//设置内容页匹配正则 
$pc='/<a\s+href=\"[^>]+\">/i'; 
//进行正则匹配搜索 
preg_match($pc,$c,$content); 
//输出标题 
echo $title[0][$i]."<br>"; 
echo $title[1][$i]."<br>"; 
$concount=count($content[0]); 
echo $concount."<br>"; 
echo $content[0][0]; 
for ($j=0;$j<$concount;$j++){ 
} 
} 
?>

通过检测,$c已经是内容页的数据流了,可是$pc这个的正则表达式为什么只匹配<这个字符其他的都没有呢,是因为我上面用了subsrt()函数吗?还是什么问题?麻烦各位大侠指点迷津啊?
PHP 相关文章推荐
PHP定时执行计划任务的多种方法小结
Dec 19 PHP
fgetcvs在linux的问题
Jan 15 PHP
PHP中feof()函数实例测试
Aug 23 PHP
php的XML文件解释类应用实例
Sep 22 PHP
PHP字符串word末字符实现大小写互换的方法
Nov 10 PHP
php绘图之生成饼状图的方法
Jan 24 PHP
PHP表单数据写入MySQL数据库的代码
May 31 PHP
php实现带读写分离功能的MySQL类完整实例
Jul 28 PHP
php7 安装yar 生成docker镜像
May 09 PHP
PHP简单实现二维数组赋值与遍历功能示例
Oct 19 PHP
PHP实现数组和对象的相互转换操作示例
Mar 20 PHP
swoole锁的机制代码实例讲解
Mar 04 PHP
php cookie 登录验证示例代码
Mar 16 #PHP
php 删除cookie和浏览器重定向
Mar 16 #PHP
php cookis创建实现代码
Mar 16 #PHP
php session应用实例 登录验证
Mar 16 #PHP
php session处理的定制
Mar 16 #PHP
php session 检测和注销
Mar 16 #PHP
php session 预定义数组
Mar 16 #PHP
You might like
PHP session有效期session.gc_maxlifetime
2011/04/20 PHP
php文件服务实现虚拟挂载其他目录示例
2014/04/17 PHP
PHP+Memcache实现wordpress访问总数统计(非插件)
2014/07/04 PHP
PHP开发框架kohana中处理ajax请求的例子
2014/07/14 PHP
分享一个Laravel好用的Cache宏
2015/03/02 PHP
php实现的redis缓存类定义与使用方法示例
2017/08/09 PHP
九种js弹出对话框的方法总结
2013/03/12 Javascript
jQuery网页选项卡插件rTabs用法实例分析
2015/08/26 Javascript
浅析JavaScript 调试方法和技巧
2015/10/22 Javascript
jQuery给元素添加样式的方法详解
2015/12/30 Javascript
Angularjs中$http以post请求通过消息体传递参数的实现方法
2016/08/05 Javascript
JS中对Cookie的操作详解
2016/08/05 Javascript
Vue.js实现无限加载与分页功能开发
2016/11/03 Javascript
JQuery ZTree使用方法详解
2017/01/07 Javascript
详解使用mpvue开发github小程序总结
2018/07/25 Javascript
elementUI select组件使用及注意事项详解
2019/05/29 Javascript
基于Vue SEO的四种方案(小结)
2019/07/01 Javascript
javascript读取本地文件和目录方法详解
2020/08/06 Javascript
[05:29]2014DOTA2国际邀请赛 赛后专访:LGDNewbee顺利过关
2014/07/13 DOTA
使用Python的urllib和urllib2模块制作爬虫的实例教程
2016/01/20 Python
python 实现判断ip连通性的方法总结
2018/04/22 Python
Python图像处理模块ndimage用法实例分析
2019/09/05 Python
如何用OpenCV -python3实现视频物体追踪
2019/12/04 Python
如何在pycharm中安装第三方包
2020/10/27 Python
Python绘制数码晶体管日期
2021/02/19 Python
CSS3的first-child选择器实战攻略
2016/04/28 HTML / CSS
尤妮佳moony海外旗舰店:日本殿堂级纸尿裤品牌
2018/02/23 全球购物
介绍下Java的输入输出流
2014/01/22 面试题
金士达面试非笔试
2012/03/14 面试题
职业生涯规划设计步骤
2014/01/12 职场文书
银行员工辞职信范文
2014/01/20 职场文书
党员岗位承诺口号大全
2014/03/28 职场文书
护理目标管理责任书
2014/07/25 职场文书
党的群众路线对照检查材料范文
2014/09/24 职场文书
2015年创先争优工作总结
2015/05/23 职场文书
Python字符串对齐方法使用(ljust()、rjust()和center())
2021/04/26 Python