同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
PHP集成FCK的函数代码
Sep 27 PHP
PHP中去除换行解决办法小结(PHP_EOL)
Nov 27 PHP
解决文件名解压后乱码的问题 将文件名进行转码的代码
Jan 10 PHP
php与java通过socket通信的实现代码
Oct 21 PHP
PHP中exec函数和shell_exec函数的区别
Aug 20 PHP
thinkphp连贯操作实例分析
Nov 22 PHP
PHP+shell实现多线程的方法
Jul 01 PHP
php中简单的对称加密算法实现
Jan 05 PHP
利用php生成验证码
Feb 23 PHP
php+mysql+ajax实现单表多字段多关键词查询的方法
Apr 15 PHP
PHP+mysql实现的三级联动菜单功能示例
Feb 15 PHP
PHP7 错误处理机制修改
Mar 09 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
php实现cookie加密的方法
2015/03/10 PHP
php类常量用法实例分析
2015/07/09 PHP
CodeIgniter整合Smarty的方法详解
2017/08/25 PHP
小程序微信退款功能实现方法详解【基于thinkPHP】
2019/05/05 PHP
jquery方法+js一般方法+js面向对象方法实现拖拽效果
2012/08/30 Javascript
JS面向对象(3)之Object类,静态属性,闭包,私有属性, call和apply的使用,继承的三种实现方法
2016/02/25 Javascript
jQuery中借助deferred来请求及判断AJAX加载的实例讲解
2016/05/24 Javascript
Jquery调用iframe父页面中的元素及方法
2016/08/23 Javascript
bootstrap读书笔记之CSS组件(上)
2016/10/17 Javascript
基于JavaScript实现图片剪切效果
2017/03/07 Javascript
整理关于Bootstrap排版的慕课笔记
2017/03/29 Javascript
JavaScript循环_动力节点Java学院整理
2017/06/28 Javascript
vue使用element-ui的el-input监听不了回车事件的解决方法
2018/01/12 Javascript
angularjs中$http异步上传Excel文件方法
2018/02/23 Javascript
详解处理bootstrap4不支持远程静态框问题
2018/07/20 Javascript
VUE 实现动态给对象增加属性,并触发视图更新操作示例
2019/11/29 Javascript
JavaScript如何判断input数据类型
2020/02/06 Javascript
js仿京东放大镜效果
2020/08/09 Javascript
Python原始字符串(raw strings)用法实例
2014/10/13 Python
Python用模块pytz来转换时区
2016/08/19 Python
python实现解数独程序代码
2017/04/12 Python
pygame 精灵的行走及二段跳的实现方法(必看篇)
2017/07/10 Python
python爬虫 urllib模块url编码处理详解
2019/08/20 Python
Python测试Kafka集群(pykafka)实例
2019/12/23 Python
pycharm 设置项目的根目录教程
2020/02/12 Python
降低python版本的操作方法
2020/09/11 Python
python实现银行账户系统
2021/02/22 Python
阿里巴巴美国:Alibaba美国
2019/11/24 全球购物
JSP&Servlet技术面试题
2015/05/21 面试题
2014年科室工作总结
2014/11/20 职场文书
诚信考试承诺书范文
2015/04/29 职场文书
高中升旗仪式主持词
2015/07/03 职场文书
七一表彰大会简报
2015/07/20 职场文书
为什么MySQL选择Repeatable Read作为默认隔离级别
2021/07/26 MySQL
Python+腾讯云服务器实现每日自动健康打卡
2021/12/06 Python
台积电称即便经济低迷也没有降价的计划
2022/04/21 数码科技