同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
phpExcel导出大量数据出现内存溢出错误的解决方法
Feb 28 PHP
深入分析php中接口与抽象类的区别
Jun 08 PHP
php5.3 不支持 session_register() 此函数已启用的解决方法
Nov 12 PHP
php实现12306余票查询、价格查询示例
Apr 17 PHP
php邮箱地址正则表达式验证
Nov 13 PHP
利用PHP命令行模式采集股票趋势信息
Aug 09 PHP
php版微信开发之接收消息,自动判断及回复相应消息的方法
Sep 23 PHP
关于PHP内置的字符串处理函数详解
Feb 04 PHP
php实现留言板功能(会话控制)
May 23 PHP
PHP编程实现阳历转换为阴历的方法实例
Aug 08 PHP
PHP中“=&gt;
Mar 01 PHP
PHP 扩展Memcached命令用法实例总结
Jun 04 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
php学习笔记 面向对象中[接口]与[多态性]的应用
2011/06/16 PHP
50个PHP程序性能优化的方法
2014/06/02 PHP
php实现通过cookie换肤的方法
2015/07/13 PHP
PHP PDOStatement::fetchColumn讲解
2019/01/31 PHP
提高Laravel应用性能方法详解
2019/06/24 PHP
Thinkphp5 自定义上传文件名的实现方法
2019/07/23 PHP
jQuery实现鼠标点击弹出渐变层的方法
2015/07/09 Javascript
js获取本机操作系统类型的两种方法
2015/12/19 Javascript
关于微信中a链接无法跳转问题
2016/08/02 Javascript
js实现表单及时验证功能 用户信息立即验证
2016/09/13 Javascript
js实现控制textarea输入字符串的个数,鼠标按下抬起判断输入字符数
2016/10/25 Javascript
学习使用jQuery表单验证插件和日历插件
2017/02/13 Javascript
详解Vuex管理登录状态
2017/11/13 Javascript
浅谈Vue.js 关于页面加载完成后执行一个方法的问题
2019/04/01 Javascript
websocket4.0+typescript 实现热更新的方法
2019/08/14 Javascript
layer.prompt输入层的例子
2019/09/24 Javascript
vue中使用rem布局代码详解
2019/10/30 Javascript
python中的decorator的作用详解
2018/07/26 Python
Python正则表达式指南 推荐
2018/10/09 Python
对Python发送带header的http请求方法详解
2019/01/02 Python
Python脚本修改阿里云的访问控制列表的方法
2019/03/08 Python
python Django的web开发实例(入门)
2019/07/31 Python
python或C++读取指定文件夹下的所有图片
2019/08/31 Python
Python彻底删除文件夹及其子文件方式
2019/12/23 Python
Python数组拼接np.concatenate实现过程
2020/04/18 Python
Python更改pip镜像源的方法示例
2020/12/01 Python
Maison Lab荷兰:名牌Outlet购物
2018/08/10 全球购物
365 Tickets英国:全球景点门票
2019/07/06 全球购物
Hotels.com拉丁美洲:从豪华酒店到经济型酒店的预定优惠和折扣
2019/12/09 全球购物
Solaris操作系统的线程机制
2015/07/28 面试题
超市周年庆活动方案
2014/08/16 职场文书
学校运动会广播稿100条
2014/09/14 职场文书
2014年图书室工作总结
2014/12/09 职场文书
2016年春季运动会加油稿
2015/07/22 职场文书
理解python中装饰器的作用
2021/07/21 Python
MySQL数据库安装方法与图形化管理工具介绍
2022/05/30 MySQL