同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
一个PHP+MSSQL分页的例子
Oct 09 PHP
php下保存远程图片到本地的办法
Aug 08 PHP
PHP isset()与empty()的使用区别详解
Aug 29 PHP
PHP函数spl_autoload_register()用法和__autoload()介绍
Feb 04 PHP
Mysql中分页查询的两个解决方法比较
May 02 PHP
Codeigniter的一些优秀特性总结
Jan 21 PHP
PHP简单选择排序算法实例
Jan 26 PHP
搭建基于Docker的PHP开发环境的详细教程
Jul 01 PHP
如何修改Laravel中url()函数生成URL的根地址
Aug 11 PHP
PHP ADODB实现事务处理功能示例
May 25 PHP
PHP大文件切割上传并带进度条功能示例
Jul 01 PHP
yii2.0框架实现上传excel文件后导入到数据库的方法示例
Apr 13 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
WordPress主题制作中自定义头部的相关PHP函数解析
2016/01/08 PHP
利用phpexcel对数据库数据的导入excel(excel筛选)、导出excel
2017/04/27 PHP
php unlink()函数使用教程
2018/07/12 PHP
在线编辑器中换行与内容自动提取
2009/04/24 Javascript
js 取时间差去掉周六周日实现代码
2012/12/25 Javascript
基于KMP算法JavaScript的实现方法分析
2013/05/03 Javascript
文档对象模型DOM通俗讲解
2013/11/01 Javascript
js中对象的声明方式以及数组的一些用法示例
2013/12/11 Javascript
jQuery中first()方法用法实例
2015/01/06 Javascript
js模仿php中strtotime()与date()函数实现方法
2015/08/11 Javascript
Bootstrap每天必学之下拉菜单
2015/11/25 Javascript
AngularJS ng-controller 指令简单实例
2016/08/01 Javascript
jQuery中Nicescroll滚动条插件的用法
2016/11/10 Javascript
微信小程序 同步请求授权的详解
2017/08/04 Javascript
JS中的BOM应用
2018/02/02 Javascript
vue项目中添加单元测试的方法
2018/07/21 Javascript
Vue.js实现备忘录功能
2019/06/26 Javascript
详解JS预解析原理
2020/06/16 Javascript
解决vuex数据页面刷新后初始化操作
2020/07/26 Javascript
matplotlib设置legend图例代码示例
2017/12/19 Python
Flask解决跨域的问题示例代码
2018/02/12 Python
用python 实现在不确定行数情况下多行输入方法
2019/01/28 Python
基于python二叉树的构造和打印例子
2019/08/09 Python
python3 使用ssh隧道连接mysql的操作
2020/12/05 Python
一张图片能隐含千言万语之隐藏你的程序代码
2012/12/13 HTML / CSS
澳大利亚最受欢迎的美发用品目的地:AMR
2019/08/28 全球购物
大学生个人求职信范文
2013/09/21 职场文书
劳资专员岗位职责
2013/12/27 职场文书
小学老师寄语大全
2014/04/04 职场文书
慰问信模板
2015/02/14 职场文书
乔布斯辞职信(中英文对照)
2015/05/12 职场文书
学雷锋主题班会教案
2015/08/13 职场文书
2019思想汇报范文
2019/05/21 职场文书
感恩信:写给爸爸妈妈的一封感谢信
2019/09/12 职场文书
PyQt5结合QtDesigner实现文本框读写操作
2021/06/11 Python
mybatis源码解读之executor包语句处理功能
2022/02/15 Java/Android