同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
PHP源码之 ext/mysql扩展部分
Jul 17 PHP
探讨PHP中OO之静态关键字以及类常量的详解
Jun 07 PHP
一个图片地址分解程序(用于PHP小偷程序)
Aug 23 PHP
PHP中使用Session配合Javascript实现文件上传进度条功能
Oct 15 PHP
一个经典的PHP文件上传类分享
Nov 18 PHP
php利用事务处理转账问题
Apr 22 PHP
服务器迁移php版本不同可能诱发的问题
Dec 22 PHP
php表单文件iframe异步上传实例讲解
Jul 26 PHP
Django 中 cookie的使用
Aug 17 PHP
PHP实现网站访问量计数器
Oct 27 PHP
PHP实现用户异地登录提醒功能的方法【基于thinkPHP框架】
Mar 15 PHP
PHP面向对象程序设计继承用法简单示例
Dec 28 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
ThinkPHP中pathinfo的访问模式、路径访问模式及URL重写总结
2014/08/23 PHP
PHP基本语法实例总结
2016/09/09 PHP
php 函数中静态变量使用的问题实例分析
2020/03/05 PHP
jQuery 页面载入进度条实现代码
2009/02/08 Javascript
jQuery(1.3.2) 7行代码搞定跟随屏幕滚动的层
2009/05/21 Javascript
JavaScript Cookie 直接浏览网站分网址
2009/12/08 Javascript
jQuery dialog 异步调用ashx,webservice数据的代码
2010/08/03 Javascript
ie中js创建checkbox默认选中问题探讨
2013/10/21 Javascript
javascript控制Div层透明属性由浅变深由深变浅逐渐显示
2013/11/12 Javascript
兼容各大浏览器的JavaScript阻止事件冒泡代码
2015/07/09 Javascript
浅析javascript的return语句
2015/12/15 Javascript
jQuery图片切换动画特效
2016/11/02 Javascript
JS中判断null的方法分析
2016/11/21 Javascript
原生js实现弹出层效果
2017/01/20 Javascript
基于Marquee.js插件实现的跑马灯效果示例
2017/01/25 Javascript
基于JavaScript实现焦点图轮播效果
2017/03/27 Javascript
JQuery 获取Dom元素的实例讲解
2017/07/08 jQuery
微信小程序实现的贪吃蛇游戏【附源码下载】
2018/01/03 Javascript
简单的Vue SSR的示例代码
2018/01/12 Javascript
MUI 实现侧滑菜单及其主体部分上下滑动的方法
2018/01/25 Javascript
ES6 系列之 Generator 的自动执行的方法示例
2018/10/19 Javascript
angular中如何绑定iframe中src的方法
2019/02/01 Javascript
图解NodeJS实现登录注册功能
2019/09/16 NodeJs
[49:13]DOTA2上海特级锦标赛C组资格赛#1 OG VS LGD第一局
2016/02/27 DOTA
python实现的守护进程(Daemon)用法实例
2015/06/02 Python
Python之父谈Python的未来形式
2016/07/01 Python
详解python发送各类邮件的主要方法
2016/12/22 Python
Python整型运算之布尔型、标准整型、长整型操作示例
2017/07/21 Python
Django使用Mysql数据库已经存在的数据表方法
2018/05/27 Python
python 字典的打印实现
2019/09/26 Python
Django接收照片储存文件的实例代码
2020/03/07 Python
浅谈tensorflow使用张量时的一些注意点tf.concat,tf.reshape,tf.stack
2020/06/23 Python
英国最大的在线时尚眼镜店:Eyewearbrands
2019/03/12 全球购物
你经历的项目中的SCM配置项主要有哪些?什么是配置项?
2013/11/04 面试题
idea下配置tomcat避坑详解
2022/04/12 Servers
Python可视化神器pyecharts之绘制地理图表练习
2022/07/07 Python