同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
一个简单的PHP&amp;MYSQL留言板源码
Jul 19 PHP
理解php原理的opcodes(操作码)
Oct 26 PHP
php中大括号作用介绍
Mar 22 PHP
phpcms模块开发之swfupload的使用介绍
Apr 28 PHP
使用HMAC-SHA1签名方法详解
Jun 26 PHP
php的hash算法介绍
Feb 13 PHP
thinkPHP导出csv文件及用表格输出excel的方法
Dec 30 PHP
Thinkphp和Bootstrap结合打造个性的分页样式(推荐)
Aug 01 PHP
thinkphp跨库操作的简单代码实例
Sep 22 PHP
linux平台编译安装PHP7并安装Redis扩展与Swoole扩展实例教程
Sep 30 PHP
Zend Framework常用校验器详解
Dec 09 PHP
PDO::errorInfo讲解
Jan 28 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
PHP setcookie指定domain参数后,在IE下设置cookie失效的解决方法
2011/09/09 PHP
ThinkPHP框架实现的MySQL数据库备份功能示例
2018/05/24 PHP
laravel框架数据库配置及操作数据库示例
2019/10/10 PHP
原型方法的不同写法居然会影响调试的解决方法
2007/03/08 Javascript
jquery HotKeys轻松搞定键盘事件代码
2008/08/30 Javascript
js 操作符实例代码
2009/10/24 Javascript
更优雅的事件触发兼容
2011/10/24 Javascript
JavaScript提高性能知识点汇总
2016/01/15 Javascript
基于javascript实现全国省市二级联动下拉选择菜单
2016/01/28 Javascript
js实现非常棒的弹出div
2016/10/06 Javascript
详解nodejs操作mongodb数据库封装DB类
2017/04/10 NodeJs
jQuery实现的页面弹幕效果【测试可用】
2018/08/17 jQuery
js打开word文档预览操作示例【不是下载】
2019/05/23 Javascript
javascript利用canvas实现鼠标拖拽功能
2020/07/23 Javascript
JavaScript实现鼠标移入随机变换颜色
2020/11/24 Javascript
javascript实现点击小图显示大图
2020/11/29 Javascript
[13:55]Newbee vs Team Spirit
2018/06/07 DOTA
python实现将文本转换成语音的方法
2015/05/28 Python
Python使用正则表达式抓取网页图片的方法示例
2017/04/21 Python
Python3用tkinter和PIL实现看图工具
2018/06/21 Python
pycharm: 恢复(reset) 误删文件的方法
2018/10/22 Python
Python编程深度学习计算库之numpy
2018/12/28 Python
PyQt5连接MySQL及QMYSQL driver not loaded错误解决
2020/04/29 Python
Python实现自动整理文件的脚本
2020/12/17 Python
韩国CJ食品专卖网:CJonmart
2016/09/11 全球购物
New Balance俄罗斯官方网上商店:购买运动鞋
2020/03/02 全球购物
Linux面试题LINUX系统类
2015/11/25 面试题
获奖的大学生创业计划书
2014/01/05 职场文书
秋季婚礼证婚词
2014/01/11 职场文书
中专毕业生个人职业生涯规划
2014/02/19 职场文书
ktv筹备计划书
2014/05/03 职场文书
地陪导游欢迎词
2015/01/26 职场文书
英语教师个人工作总结
2015/02/09 职场文书
安全守法证明
2015/06/23 职场文书
四群教育工作总结
2015/08/10 职场文书
mysql timestamp比较查询遇到的坑及解决
2021/11/27 MySQL