php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
php中判断一个字符串包含另一个字符串的方法
Mar 19 PHP
php读取xml实例代码
Jan 28 PHP
PHP 计算代码执行耗时的代码修正网上普遍错误
May 14 PHP
PHP基于GD库的缩略图生成代码(支持jpg,gif,png格式)
Jun 19 PHP
使用PHP把HTML生成PDF文件的几个开源项目介绍
Nov 17 PHP
Yii框架获取当前controlle和action对应id的方法
Dec 03 PHP
PHP实现获取FLV文件的时间
Feb 10 PHP
PHP 设计模式系列之 specification规格模式
Jan 10 PHP
thinkphp3.x连接mysql数据库的方法(具体操作步骤)
May 19 PHP
php pdo操作数据库示例
Mar 10 PHP
PHP使用imagick扩展实现合并图像的方法
Apr 25 PHP
PHP实现的登录页面信息提示功能示例
Jul 24 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
php中的一个中文字符串截取函数
2007/02/14 PHP
php启用zlib压缩文件的配置方法
2013/06/12 PHP
PHP curl 获取响应的状态码的方法
2014/01/13 PHP
微信公众平台开发教程④ ThinkPHP框架下微信支付功能图文详解
2019/04/10 PHP
js过滤数组重复元素的方法
2010/09/05 Javascript
iframe 上下滚动条如何默认在下方实现原理
2012/12/10 Javascript
JavaScript 模块的循环加载实现方法
2015/12/13 Javascript
Javascript中获取浏览器类型和操作系统版本等客户端信息常用代码
2016/06/28 Javascript
Javascript iframe交互并兼容各种浏览器的解决方法
2016/07/12 Javascript
JS限定手机版中图片大小随分辨率自动调整的方法
2016/12/05 Javascript
Bootstrap模态框(Modal)实现过渡效果
2017/03/17 Javascript
JS+CSS实现下拉刷新/上拉加载插件
2017/03/31 Javascript
JavaScript 获取元素在父节点中的下标(推荐)
2017/06/28 Javascript
JavaScript输入分钟、秒倒计时技巧总结(附代码)
2017/08/17 Javascript
详解VUE自定义组件中用.sync修饰符与v-model的区别
2018/06/26 Javascript
vue excel上传预览和table内容下载到excel文件中
2019/12/10 Javascript
原生javascript运动函数的封装示例【匀速、抛物线、多属性的运动等】
2020/02/23 Javascript
[28:28]Ti4 冒泡赛第二天NEWBEE vs NaVi 2
2014/07/15 DOTA
python的id()函数介绍
2013/02/10 Python
跟老齐学Python之复习if语句
2014/10/02 Python
使用Python判断质数(素数)的简单方法讲解
2016/05/05 Python
python3.4用函数操作mysql5.7数据库
2017/06/23 Python
Python中的引用知识点总结
2019/05/20 Python
Pycharm新手教程(只需要看这篇就够了)
2019/06/18 Python
10个python3常用排序算法详细说明与实例(快速排序,冒泡排序,桶排序,基数排序,堆排序,希尔排序,归并排序,计数排序)
2020/03/17 Python
执行Python程序时模块报错问题
2020/03/26 Python
python实现程序重启和系统重启方式
2020/04/16 Python
亚历山大·王官网:Alexander Wang
2017/06/23 全球购物
巴西补充剂和维生素购物网站:Natue
2019/06/17 全球购物
如何处理简单的PHP错误
2015/10/14 面试题
班训口号大全
2014/06/18 职场文书
乡镇党委书记个人整改措施
2014/09/15 职场文书
加强作风建设演讲稿
2014/10/24 职场文书
营销经理工作检讨书
2014/11/03 职场文书
学校重阳节活动总结
2015/03/24 职场文书
人事部:年度述职报告范文
2019/07/12 职场文书