同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
关于在php.ini中添加extension=php_mysqli.dll指令的说明
Jun 14 PHP
PHP脚本中include文件出错解决方法
Nov 20 PHP
php Session存储到Redis的方法
Nov 04 PHP
PHP中date与gmdate的区别及默认时区设置
May 12 PHP
ThinkPHP之foreach标签使用概述
Jun 30 PHP
ucenter通信原理分析
Jan 09 PHP
php实现随机显示图片方法汇总
May 21 PHP
PHP实现的MD5结合RSA签名算法实例
Oct 07 PHP
PHP使用pdo连接access数据库并循环显示数据操作示例
Jun 05 PHP
laravel 如何实现引入自己的函数或类库
Oct 15 PHP
解决laravel5.4下的group by报错的问题
Oct 16 PHP
PHP论坛实现积分系统的思路代码详解
Jun 01 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
让Nginx支持ThinkPHP的URL重写和PATHINFO的方法分享
2011/08/08 PHP
PHP中使用glob函数实现一句话删除某个目录下的所有文件
2014/07/22 PHP
谈谈PHP中substr和substring的正确用法及相关参数的介绍
2015/12/16 PHP
php cookie工作原理与实例详解
2016/07/18 PHP
Yii2框架加载css和js文件的方法分析
2019/05/25 PHP
JavaScript 编程引入命名空间的方法
2007/06/29 Javascript
javascript preload&amp;lazy load
2010/05/13 Javascript
jQuery ul标签下拉菜单演示代码
2010/12/11 Javascript
artDialog 4.1.5 Dreamweaver代码提示/补全插件 附下载
2012/07/31 Javascript
多种方法实现JS动态添加事件
2013/11/01 Javascript
javascript将数字转换整数金额大写的方法
2015/01/27 Javascript
JavaScript判断变量是否为数组的方法(Array)
2016/02/24 Javascript
jQuery设置Cookie及删除Cookie实例分析
2016/04/15 Javascript
jQuery 实现评论等级好评差评特效
2016/05/06 Javascript
js实现PC端和移动端刮卡效果
2020/03/27 Javascript
详解JavaScript 中getElementsByName在IE中的注意事项
2017/02/21 Javascript
react-navigation 如何判断用户是否登录跳转到登录页的方法
2017/12/01 Javascript
jquery+css实现Tab栏切换的代码实例
2019/05/14 jQuery
微信小程序中button去除默认的边框实例代码
2019/08/01 Javascript
vue-cli —— 如何局部修改Element样式
2020/10/22 Javascript
Python基于DES算法加密解密实例
2015/06/03 Python
在Python中移动目录结构的方法
2016/01/31 Python
python Web开发你要理解的WSGI &amp; uwsgi详解
2018/08/01 Python
Python当中的array数组对象实例详解
2019/06/12 Python
CSS3 渐变(Gradients)之CSS3 径向渐变
2016/07/08 HTML / CSS
广播电视新闻学专业应届生求职信
2013/10/08 职场文书
新闻专业应届生求职信
2013/10/31 职场文书
销售文员岗位职责
2013/11/29 职场文书
办理暂住证介绍信
2014/01/11 职场文书
幼儿园教师备课制度
2014/01/12 职场文书
五一劳动节活动总结
2015/02/09 职场文书
上班迟到检讨书范文
2015/05/06 职场文书
小学生心理健康活动总结
2015/05/08 职场文书
二手手机买卖合同范本(2019年版)
2019/10/28 职场文书
导游词之张家界
2019/10/31 职场文书
python ConfigParser库的使用及遇到的坑
2022/02/12 Python