同时提取多条新闻中的文本一例


Posted in PHP onOctober 09, 2006

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i++)        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">  </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size="+2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>    ',"\n"."

",$str3[1]);
            $str3[1]=str_replace(' ',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

PHP 相关文章推荐
smtp邮件发送一例
Oct 09 PHP
某大型网络公司应聘时的笔试题目附答案
Mar 27 PHP
PHPEXCEL 使用小记
Jan 06 PHP
LotusPhp笔记之:Cookie组件的使用详解
May 06 PHP
php实现的返回数据格式化类实例
Sep 22 PHP
PHP实现一维数组转二维数组的方法
Feb 25 PHP
php简单判断两个字符串是否相等的方法
Jul 13 PHP
PHP实现GIF图片验证码
Nov 04 PHP
php实现将二维关联数组转换成字符串的方法详解
Jul 31 PHP
Laravel利用gulp如何构建前端资源详解
Jun 03 PHP
Laravel定时任务的每秒执行代码
Oct 22 PHP
php实现断点续传大文件示例代码
Jun 19 PHP
PHP+DBM的同学录程序(4)
Oct 09 #PHP
PHP+DBM的同学录程序(1)
Oct 09 #PHP
基于mysql的bbs设计(四)
Oct 09 #PHP
PHP+DBM的同学录程序(3)
Oct 09 #PHP
PHP+DBM的同学录程序(2)
Oct 09 #PHP
基于mysql的bbs设计(一)
Oct 09 #PHP
基于mysql的bbs设计(二)
Oct 09 #PHP
You might like
js下将字符串当函数执行的方法
2011/07/13 Javascript
基于jQuery实现的水平和垂直居中的div窗口
2011/08/08 Javascript
js中return false(阻止)的用法
2013/08/14 Javascript
JS 如何获取radio选中后的值及不选择取radio的值
2013/10/28 Javascript
根据身份证号自动输出相关信息(籍贯,出身日期,性别)
2013/11/15 Javascript
使用JavaScript和C#中获得referer
2014/11/14 Javascript
分享一个常用的javascript静态类
2014/12/31 Javascript
全面解析Bootstrap表单使用方法(表单控件)
2015/11/24 Javascript
MVC Ajax Helper或Jquery异步加载部分视图
2015/11/29 Javascript
javascript嵌套函数和在函数内调用外部函数的区别分析
2016/01/31 Javascript
js时间比较 js计算时间差的简单实现方法
2016/08/26 Javascript
详解JS几种变量交换方式以及性能分析对比
2016/11/25 Javascript
Vue2.0 从零开始_环境搭建操作步骤
2017/06/14 Javascript
浅谈JS对html标签的属性的干预以及对CSS样式表属性的干预
2017/06/25 Javascript
在axios中使用params传参的时候传入数组的方法
2018/09/25 Javascript
JS中超越现实的匿名函数用法实例分析
2019/06/21 Javascript
Vue3.0数据响应式原理详解
2019/10/09 Javascript
Javascript前端下载后台传来的文件流代码实例
2020/08/18 Javascript
基于Vant UI框架实现时间段选择器
2020/12/24 Javascript
[16:14]教你分分钟做大人:米拉娜(HEROS)
2014/11/24 DOTA
Python开发的实用计算器完整实例
2017/05/10 Python
python 请求服务器的实现代码(http请求和https请求)
2018/05/25 Python
python编写计算器功能
2019/10/25 Python
python 创建一维的0向量实例
2019/12/02 Python
在keras中对单一输入图像进行预测并返回预测结果操作
2020/07/09 Python
简述数组与指针的区别
2014/01/02 面试题
中专生职业生涯规划书范文
2013/12/29 职场文书
硕士生工作推荐信
2014/03/07 职场文书
制冷与空调专业毕业生推荐信
2014/07/07 职场文书
开国大典观后感
2015/06/04 职场文书
格列夫游记读书笔记
2015/07/01 职场文书
2016年师德师风学习心得体会
2016/01/12 职场文书
《自己的花是让别人看的》教学反思
2016/02/19 职场文书
Java面试题冲刺第十八天--Spring框架3
2021/08/07 面试题
Java 多态分析
2022/04/26 Java/Android
MySql如何将查询的出来的字段进行转换
2022/06/14 MySQL