同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
用IE远程创建Mysql数据库的简易程序
Oct 09 PHP
phpMyAdmin 链接表的附加功能尚未激活问题的解决方法(已测)
Mar 27 PHP
解析:使用php mongodb扩展时 需要注意的事项
Jun 18 PHP
php获取文件名后缀常用方法小结
Feb 24 PHP
php查询mysql数据库并将结果保存到数组的方法
Mar 18 PHP
从wamp到xampp的升级之路
Apr 08 PHP
php实现用手机关闭计算机(电脑)的方法
Apr 22 PHP
ThinkPHP函数详解之M方法和R方法
Sep 10 PHP
Twig模板引擎用法入门教程
Jan 20 PHP
PHP 表单提交及处理表单数据详解及实例
Dec 27 PHP
php下的原生ajax请求用法实例分析
Feb 28 PHP
thinkphp5 框架结合plupload实现图片批量上传功能示例
Apr 04 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
星际RPG字典
2020/03/04 星际争霸
php MsSql server时遇到的中文编码问题
2009/06/11 PHP
PHP使用数组实现队列
2012/02/05 PHP
深入理解用mysql_fetch_row()以数组的形式返回查询结果
2013/06/05 PHP
php创建sprite
2014/02/11 PHP
总结PHP删除字符串最后一个字符的三种方法
2016/08/30 PHP
在PHP中实现使用Guzzle执行POST和GET请求
2019/10/15 PHP
jQuery DIV弹出效果实现代码
2009/07/03 Javascript
JS获取各种浏览器窗口大小的方法
2014/01/14 Javascript
简单谈谈jQuery(function(){})与(function(){})(jQuery)
2014/12/19 Javascript
使用原生JS实现弹出层特效
2014/12/22 Javascript
jQuery基础知识点总结(必看)
2016/05/31 Javascript
JavaScript实现简单精致的图片左右无缝滚动效果
2017/03/16 Javascript
gulp解决跨域的配置文件问题
2017/06/08 Javascript
详解vue-resource promise兼容性问题
2017/06/20 Javascript
jQuery+Ajax请求本地数据加载商品列表页并跳转详情页的实现方法
2017/07/12 jQuery
vue使用prop可以渲染但是打印台报错的解决方式
2019/11/13 Javascript
使用pkg打包ThinkJS项目的方法步骤
2019/12/30 Javascript
Python爬虫实例爬取网站搞笑段子
2017/11/08 Python
详解python OpenCV学习笔记之直方图均衡化
2018/02/08 Python
Django管理员账号和密码忘记的完美解决方法
2018/12/06 Python
python3 自动识别usb连接状态,即对usb重连的判断方法
2019/07/03 Python
python实现处理mysql结果输出方式
2020/04/09 Python
css3实现背景模糊的三种方式(小结)
2020/05/15 HTML / CSS
露营世界:Camping World
2017/02/02 全球购物
美体小铺美国官网:The Body Shop美国
2017/11/10 全球购物
SQL Server 2000数据库的文件有哪些,分别进行描述
2013/03/30 面试题
大学军训自我鉴定
2013/12/15 职场文书
财务会计实习报告体会
2013/12/20 职场文书
平安家庭示范户事迹
2014/06/02 职场文书
房地产端午节活动方案
2014/08/24 职场文书
助学感谢信范文
2015/01/21 职场文书
培训后的感想
2015/08/07 职场文书
八年级物理教学反思
2016/02/19 职场文书
php随机生成验证码,php随机生成数字,php随机生成数字加字母!
2021/04/01 PHP
解决MySQL Varchar 类型尾部空格的问题
2022/04/06 MySQL