同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
php 图片上添加透明度渐变的效果
Jun 29 PHP
PHP开启gzip页面压缩实例代码
Mar 11 PHP
PHP 抓取网页图片并且另存为的实现代码
Mar 24 PHP
PHP中替换键名的简易方法示例详解
Jan 07 PHP
smarty内置函数{loteral}、{ldelim}和{rdelim}用法实例
Jan 22 PHP
php $_SESSION会员登录实例分享
Jan 19 PHP
php好代码风格的阶段性总结
Jun 25 PHP
完美解决phpexcel导出到xls文件出现乱码的问题
Oct 29 PHP
PHP实现批量删除(封装)
Apr 28 PHP
php实现有序数组旋转后寻找最小值方法
Sep 27 PHP
ThinkPHP5.0框架验证码功能实现方法【基于第三方扩展包】
Mar 11 PHP
PHP面向对象程序设计之对象克隆clone和魔术方法__clone()用法分析
Jun 12 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
PHP 变量定义和变量替换的方法
2009/07/30 PHP
PHP XML操作类DOMDocument
2009/12/16 PHP
PHP数据库万能引擎类adodb配置使用以及实例集锦
2014/06/12 PHP
thinkphp5实现无限级分类
2019/02/18 PHP
Jjcarousellite 实现图片列表滚动的简单实例
2013/11/29 Javascript
struts2+jquery组合验证注册用户是否存在
2014/04/30 Javascript
js星星评分效果
2014/07/24 Javascript
js实现宇宙星空背景效果的方法
2015/03/03 Javascript
jQuery调用WebMethod(PageMethod) NET2.0的方法
2016/04/15 Javascript
jqGrid 学习笔记整理——进阶篇(一 )
2016/04/17 Javascript
实例讲解DataTables固定表格宽度(设置横向滚动条)
2017/07/11 Javascript
jQuery绑定事件方法及区别(bind,click,on,live,one)
2017/08/14 jQuery
vue路由前进后退动画效果的实现代码
2018/12/10 Javascript
JS使用数组实现的队列功能示例
2019/03/04 Javascript
解决vue elementUI中table里数字、字母、中文混合排序问题
2020/01/07 Javascript
解决antd Form 表单校验方法无响应的问题
2020/10/27 Javascript
Django中传递参数到URLconf的视图函数中的方法
2015/07/18 Python
详解在Python的Django框架中创建模板库的方法
2015/07/20 Python
Python实现对一个函数应用多个装饰器的方法示例
2018/02/09 Python
Python实现的拟合二元一次函数功能示例【基于scipy模块】
2018/05/15 Python
python使用rpc框架gRPC的方法
2018/08/24 Python
Django CBV类的用法详解
2019/07/26 Python
对python中的os.getpid()和os.fork()函数详解
2019/08/08 Python
基于python实现蓝牙通信代码实例
2019/11/19 Python
Python 用turtle实现用正方形画圆的例子
2019/11/21 Python
python 爬虫 实现增量去重和定时爬取实例
2020/02/28 Python
Python连接mysql方法及常用参数
2020/09/01 Python
自定义html标记替换html5新增元素
2008/10/17 HTML / CSS
Spartoo芬兰:欧洲最大的网上鞋店
2016/08/28 全球购物
Schutz鞋官方网站:Schutz Shoes
2017/12/13 全球购物
美国领先的水果篮送货公司和新鲜水果供应商:The Fruit Company
2018/02/13 全球购物
应届大专毕业生个人自荐信
2013/09/22 职场文书
出纳员岗位职责
2014/03/13 职场文书
护士2014年终工作总结
2014/11/11 职场文书
说谎欺骗人检讨书300字
2014/11/18 职场文书
催款通知书范文
2015/04/17 职场文书