php 信息采集程序代码


Posted in PHP onMarch 17, 2009
<? 
//采集首页地址 
$url="http://emotion.pclady.com.cn/skills/"; 
//获取页面代码 
$rs=file_get_contents($url); 
//设置匹配正则 
//$fp=fopen("text.txt","a"); 
//$fw=fwrite($fp,$rs); 
//fclose($fp); 
/*<I class=titles><A 
href="http://emotion.pclady.com.cn/skills/0903/376476.html" 
target=_blank>留住你身边的好男人</A></I>*/ 
$preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i'; 
//进行正则搜索 
preg_match_all($preg,$rs,$title); 
//计算标题数量 
$count=count($title[0]); 
echo $count."<br>"; 
//通过标题数量进行内容采集 
for ($i=0;$i<$count;$i++){ //设置内容页地址 
$pr='/<a\s+href=\"[^>]+\">/isU'; 
preg_match_all($pr,$title[0][$i],$jurl); 
$substr=substr($jurl[0][0],9); 
$curl=substr($substr,0,-18); 
//获取内容页代码 
$c=file_get_contents($curl); 
//设置内容页匹配正则 
$pc='/<a\s+href=\"[^>]+\">/i'; 
//进行正则匹配搜索 
preg_match($pc,$c,$content); 
//输出标题 
echo $title[0][$i]."<br>"; 
echo $title[1][$i]."<br>"; 
$concount=count($content[0]); 
echo $concount."<br>"; 
echo $content[0][0]; 
for ($j=0;$j<$concount;$j++){ 
} 
} 
?>

通过检测,$c已经是内容页的数据流了,可是$pc这个的正则表达式为什么只匹配<这个字符其他的都没有呢,是因为我上面用了subsrt()函数吗?还是什么问题?麻烦各位大侠指点迷津啊?
PHP 相关文章推荐
PHP读取RSS(Feed)简单实例
Jun 12 PHP
php广告加载类用法实例
Sep 23 PHP
php跨服务器访问方法小结
May 12 PHP
PHP实现将textarea的值根据回车换行拆分至数组
Jun 10 PHP
WordPress开发中短代码的实现及相关函数使用技巧
Jan 05 PHP
PHP闭包函数详解
Feb 13 PHP
PHP页面跳转操作实例分析(header方法)
Sep 28 PHP
php车辆违章查询数据示例
Oct 14 PHP
PHP多进程之pcntl_fork的实例详解
Oct 15 PHP
thinkPHP5框架实现基于ajax的分页功能示例
Jun 12 PHP
phpinfo的知识点总结
Oct 10 PHP
让你的PHP,APACHE,NGINX支持大文件上传
Mar 09 PHP
php cookie 登录验证示例代码
Mar 16 #PHP
php 删除cookie和浏览器重定向
Mar 16 #PHP
php cookis创建实现代码
Mar 16 #PHP
php session应用实例 登录验证
Mar 16 #PHP
php session处理的定制
Mar 16 #PHP
php session 检测和注销
Mar 16 #PHP
php session 预定义数组
Mar 16 #PHP
You might like
dede3.1分页文字采集过滤规则详说(图文教程)续二
2007/04/03 PHP
通过缓存数据库结果提高PHP性能的原理介绍
2012/09/05 PHP
php使用str_replace实现输入框回车替换br的方法
2014/11/24 PHP
php ImageMagick windows下安装教程
2015/01/26 PHP
老生常谈PHP面向对象之注册表模式
2017/05/26 PHP
PHP crypt()函数的用法讲解
2019/02/15 PHP
取得窗口大小 兼容所有浏览器的js代码
2011/08/09 Javascript
jquery插件之信息弹出框showInfoDialog(成功/错误/警告/通知/背景遮罩)
2013/01/09 Javascript
JS实现的简洁纵向滑动菜单(滑动门)效果
2015/10/19 Javascript
jQuery+canvas实现的球体平抛及颜色动态变换效果
2016/01/28 Javascript
详解angular2封装material2对话框组件
2017/03/03 Javascript
React-router中结合webpack实现按需加载实例
2017/05/25 Javascript
Angular.js自动化测试之protractor详解
2017/07/07 Javascript
JavaScript自执行函数和jQuery扩展方法详解
2017/10/27 jQuery
浅析Vue中method与computed的区别
2018/03/06 Javascript
vue实现权限控制路由(vue-router 动态添加路由)
2019/11/04 Javascript
vue项目实现设置根据路由高亮对应的菜单项操作
2020/08/06 Javascript
[04:19]DOTA2亚洲邀请赛 现场花絮
2015/03/11 DOTA
[57:41]Secret vs Serenity 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
[52:40]完美世界DOTA2联赛PWL S2 Magma vs GXR 第一场 11.29
2020/12/02 DOTA
Python正则表达式介绍
2012/08/06 Python
python数据结构之图的实现方法
2015/07/08 Python
Python函数基础实例详解【函数嵌套,命名空间,函数对象,闭包函数等】
2019/03/30 Python
python利用openpyxl拆分多个工作表的工作簿的方法
2019/09/27 Python
Python中顺序表原理与实现方法详解
2019/12/03 Python
python对Excel的读取的示例代码
2020/02/14 Python
python爬取招聘要求等信息实例
2020/11/20 Python
CSS3实现超酷的黑猫警长首页
2016/04/26 HTML / CSS
世界上最好的威士忌和烈性酒购买网站:The Whisky Exchange
2016/11/20 全球购物
Feelunique美国:欧洲大型的在线美妆零售电商
2018/11/04 全球购物
领导班子个人对照检查材料(群众路线)
2014/09/26 职场文书
《中国机长》观后感:敬畏生命,敬畏职责
2019/11/12 职场文书
浅谈Python numpy创建空数组的问题
2021/05/25 Python
vue的项目如何打包上线
2022/04/13 Vue.js
Python中生成随机数据安全性、多功能性、用途和速度方面进行比较
2022/04/14 Python
pd.drop_duplicates删除重复行的方法实现
2022/06/16 Python