php 信息采集程序代码


Posted in PHP onMarch 17, 2009
<? 
//采集首页地址 
$url="http://emotion.pclady.com.cn/skills/"; 
//获取页面代码 
$rs=file_get_contents($url); 
//设置匹配正则 
//$fp=fopen("text.txt","a"); 
//$fw=fwrite($fp,$rs); 
//fclose($fp); 
/*<I class=titles><A 
href="http://emotion.pclady.com.cn/skills/0903/376476.html" 
target=_blank>留住你身边的好男人</A></I>*/ 
$preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i'; 
//进行正则搜索 
preg_match_all($preg,$rs,$title); 
//计算标题数量 
$count=count($title[0]); 
echo $count."<br>"; 
//通过标题数量进行内容采集 
for ($i=0;$i<$count;$i++){ //设置内容页地址 
$pr='/<a\s+href=\"[^>]+\">/isU'; 
preg_match_all($pr,$title[0][$i],$jurl); 
$substr=substr($jurl[0][0],9); 
$curl=substr($substr,0,-18); 
//获取内容页代码 
$c=file_get_contents($curl); 
//设置内容页匹配正则 
$pc='/<a\s+href=\"[^>]+\">/i'; 
//进行正则匹配搜索 
preg_match($pc,$c,$content); 
//输出标题 
echo $title[0][$i]."<br>"; 
echo $title[1][$i]."<br>"; 
$concount=count($content[0]); 
echo $concount."<br>"; 
echo $content[0][0]; 
for ($j=0;$j<$concount;$j++){ 
} 
} 
?>

通过检测,$c已经是内容页的数据流了,可是$pc这个的正则表达式为什么只匹配<这个字符其他的都没有呢,是因为我上面用了subsrt()函数吗?还是什么问题?麻烦各位大侠指点迷津啊?
PHP 相关文章推荐
PHP新手上路(十二)
Oct 09 PHP
PHP与MySQL开发中页面乱码的产生与解决
Mar 27 PHP
PHP OPCode缓存 APC详细介绍
Oct 12 PHP
php解压文件代码实现php在线解压
Feb 13 PHP
zf框架的session会话周期及次数限制使用示例
Mar 13 PHP
函数中使用require_once问题深入探讨 优雅的配置文件定义方法推荐
Jul 02 PHP
PHP中echo和print的区别
Aug 28 PHP
php解析字符串里所有URL地址的方法
Apr 03 PHP
Symfony2函数用法实例分析
Mar 18 PHP
PHP.vs.JAVA
Apr 29 PHP
phpmailer绑定邮箱的实现方法
Dec 01 PHP
Thinkphp5 如何隐藏入口文件index.php(URL重写)
Oct 16 PHP
php cookie 登录验证示例代码
Mar 16 #PHP
php 删除cookie和浏览器重定向
Mar 16 #PHP
php cookis创建实现代码
Mar 16 #PHP
php session应用实例 登录验证
Mar 16 #PHP
php session处理的定制
Mar 16 #PHP
php session 检测和注销
Mar 16 #PHP
php session 预定义数组
Mar 16 #PHP
You might like
Yii实现简单分页的方法
2016/04/29 PHP
PHP session 会话处理函数
2016/06/06 PHP
PHP工厂模式、单例模式与注册树模式实例详解
2019/06/03 PHP
JavaScript 动态改变图片大小
2009/06/11 Javascript
JavaScript中使用构造器创建对象无需new的情况说明
2012/03/01 Javascript
JavaScript 图像动画的小demo
2012/05/23 Javascript
基于jQuery的动态增删改查表格信息,可左键/右键提示(原创自Zjmainstay)
2012/07/31 Javascript
js与jquery获取父元素,删除子元素的两种不同方法
2014/01/09 Javascript
Jquery 1.9.1源码分析系列(十二)之筛选操作
2015/12/02 Javascript
js实现精确到秒的倒计时效果
2016/05/29 Javascript
javascript insertAfter()定义与用法示例
2016/07/25 Javascript
JS ES6多行字符串与连接字符串的表示方法
2017/04/26 Javascript
JavaScript简介_动力节点Java学院整理
2017/06/26 Javascript
随机生成10个不重复的0-100的数字(实例讲解)
2017/08/16 Javascript
使用async、enterproxy控制并发数量的方法详解
2018/01/02 Javascript
使用Angular 6创建各种动画效果的方法
2018/10/10 Javascript
vue element动态渲染、移除表单并添加验证的实现
2019/01/16 Javascript
详解vue2.6插槽更新v-slot用法总结
2019/03/09 Javascript
vue-cli项目使用mock数据的方法(借助express)
2019/04/15 Javascript
Vue事件处理原理及过程详解
2020/03/11 Javascript
vant 自定义 van-dropdown-item的用法
2020/08/05 Javascript
[03:41]2018完美盛典-《Fight With Us》
2018/12/16 DOTA
python读取word文档的方法
2015/05/09 Python
Python中创建二维数组
2018/10/17 Python
Python面向对象思想与应用入门教程【类与对象】
2019/04/12 Python
Python、 Pycharm、Django安装详细教程(图文)
2019/04/12 Python
pytorch获取vgg16-feature层输出的例子
2019/08/20 Python
Python socket处理client连接过程解析
2020/03/18 Python
windows上彻底删除jupyter notebook的实现
2020/04/13 Python
深入浅析pycharm中 Make available to all projects的含义
2020/09/15 Python
英国领先的酒类网上商城:TheDrinkShop
2017/03/16 全球购物
ASICS印度官方网站:日本专业运动品牌
2020/06/20 全球购物
建龙钢铁面试总结
2014/04/15 面试题
长辈证婚人证婚词
2014/01/09 职场文书
公路施工安全责任书
2015/05/08 职场文书
2016重阳节红领巾广播稿
2015/12/18 职场文书