php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
PHP动态变静态原理
Nov 25 PHP
php Smarty date_format [格式化时间日期]
Mar 15 PHP
使用NetBeans + Xdebug调试PHP程序的方法
Apr 12 PHP
php判断两个日期之间相差多少个月份的方法
Jun 18 PHP
Symfony2在Nginx下的配置方法图文教程
Feb 04 PHP
深入分析PHP优化及注意事项
Jul 04 PHP
PHP单链表的实现代码
Jul 05 PHP
PHP入门教程之日期与时间操作技巧总结(格式化,验证,获取,转换,计算等)
Sep 11 PHP
PHP微信公众号开发之微信红包实现方法分析
Jul 14 PHP
PHP开发API接口签名生成及验证操作示例
May 27 PHP
Swoole源码中如何查询Websocket的连接问题详解
Aug 30 PHP
YII2 全局异常处理深入讲解
Mar 24 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
php selectradio和checkbox默认选择的实现方法详解
2013/06/29 PHP
PHP连接MySQL数据的操作要点
2015/03/20 PHP
Nigma vs Alliance BO5 第一场2.14
2021/03/10 DOTA
Avengerls vs KG BO3 第一场2.18
2021/03/10 DOTA
javascript 简单高效判断数据类型 系列函数 By shawl.qiu
2007/03/06 Javascript
IE6与IE7中,innerHTML获取param的区别
2009/03/15 Javascript
精通JavaScript 纠正 cleanWhitespace函数
2010/03/11 Javascript
通过JavaScript控制字体大小的代码
2011/10/04 Javascript
来自国外的30个基于jquery的Web下拉菜单
2012/06/22 Javascript
jquery制作搜狐快站页面效果示例分享
2014/02/21 Javascript
5款JavaScript代码压缩工具推荐
2014/07/07 Javascript
JS结合bootstrap实现基本的增删改查功能
2016/07/22 Javascript
移动端使用localStorage缓存Js和css文的方法(web开发)
2016/09/20 Javascript
KnockoutJS 3.X API 第四章之数据控制流component绑定
2016/10/10 Javascript
javascript常用经典算法详解
2017/01/11 Javascript
vue弹窗插件实战代码
2018/09/08 Javascript
vue自定义全局共用函数详解
2018/09/18 Javascript
微信小程序拖拽排序列表的示例代码
2020/07/08 Javascript
解决VUE项目使用Element-ui 下拉组件的验证失效问题
2020/11/07 Javascript
好用的Python编辑器WingIDE的使用经验总结
2016/08/31 Python
python字典的setdefault的巧妙用法
2019/08/07 Python
opencv-python的RGB与BGR互转方式
2020/06/02 Python
CSS3 3D立方体效果示例-transform也不过如此
2016/12/05 HTML / CSS
HTML5 input元素类型:email及url介绍
2013/08/13 HTML / CSS
canvas 基础之图像处理的使用
2020/04/10 HTML / CSS
欧洲最大的滑雪假期供应商之一:Sunweb Holidays
2018/01/06 全球购物
Fox Racing英国官网:越野摩托车和山地自行车服装
2020/02/26 全球购物
《彭德怀和他的大黑骡子》教学反思
2014/04/12 职场文书
社区党的群众路线教育实践活动剖析材料
2014/10/09 职场文书
中学生检讨书1000字
2014/10/28 职场文书
工伤私了协议书范本
2014/11/24 职场文书
公务员考察材料
2014/12/23 职场文书
2015年清明节网上祭英烈留言寄语
2015/03/04 职场文书
学习雷锋精神倡议书
2015/04/27 职场文书
承诺书模板大全
2015/05/04 职场文书
告诉你创业计划书的8个实用技巧
2019/07/12 职场文书