php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
来自PHP.NET的入门教程
Oct 09 PHP
记录mysql性能查询过程的使用方法
May 02 PHP
Linux下安装PHP MSSQL扩展教程
Oct 24 PHP
php简单smarty入门程序实例
Jun 11 PHP
php header函数的常用http头设置
Jun 25 PHP
PHP strip_tags保留多个HTML标签的方法
May 22 PHP
静态html文件执行php语句的方法(推荐)
Nov 21 PHP
thinkPHP订单数字提醒功能的实现方法
Dec 01 PHP
Ajax中的JSON格式与php传输过程全面解析
Nov 14 PHP
php基于协程实现异步的方法分析
Jul 17 PHP
Laravel框架控制器,视图及模型操作图文详解
Dec 04 PHP
php正则表达式使用方法整理集合
Jan 31 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
php自动跳转中英文页面
2008/07/29 PHP
php文件扩展名判断及获取文件扩展名的N种方法
2015/09/12 PHP
CI框架使用composer安装的依赖包步骤与方法分析
2016/11/21 PHP
Laravel框架学习笔记之批量更新数据功能
2019/05/30 PHP
ThinkPHP5框架中使用JWT的方法示例
2020/06/03 PHP
js 多种变量定义(对象直接量,数组直接量和函数直接量)
2010/05/24 Javascript
JavaScript代码复用模式实例分析
2012/12/02 Javascript
jquerydom对象的事件隐藏显示和对象数组示例
2013/12/10 Javascript
window.onload追加函数使用示例
2014/03/03 Javascript
jQuery实现在列表的首行添加数据
2015/05/19 Javascript
JS基于cookie实现来宾统计记录访客信息的方法
2015/08/04 Javascript
原生js制作日历控件实例分享
2016/04/06 Javascript
详解探索 vuex 2.0 以及使用 vuejs 2.0 + vuex 2.0 构建记事本应用
2017/06/16 Javascript
深入理解Vue 组件之间传值
2018/08/16 Javascript
vue中axios实现数据交互与跨域问题
2019/05/12 Javascript
Python类属性的延迟计算
2016/10/22 Python
解读! Python在人工智能中的作用
2017/11/14 Python
Python3 queue队列模块详细介绍
2018/01/05 Python
python实现聊天小程序
2018/03/13 Python
python实现Dijkstra算法的最短路径问题
2019/06/21 Python
详解PyTorch中Tensor的高阶操作
2019/08/18 Python
pytorch制作自己的LMDB数据操作示例
2019/12/18 Python
python opencv圆、椭圆与任意多边形的绘制实例详解
2020/02/06 Python
解决Jupyter notebook中.py与.ipynb文件的import问题
2020/04/21 Python
python高级特性简介
2020/08/13 Python
matplotlib教程——强大的python作图工具库
2020/10/15 Python
Numpy中np.max的用法及np.maximum区别
2020/11/27 Python
Camper鞋西班牙官方网上商店:西班牙马略卡岛的鞋类品牌
2019/03/14 全球购物
英国最大的在线照明商店:Litecraft
2020/08/31 全球购物
党的群众路线教育实践活动公开承诺书
2014/03/28 职场文书
大学生简短的自我评价
2014/09/12 职场文书
孕妇离婚协议书范本
2014/11/20 职场文书
西柏坡导游词
2015/02/05 职场文书
单位推荐信范文
2015/03/27 职场文书
导游带团欢迎词
2015/09/30 职场文书
前端JS获取URL参数的4种方法总结
2022/04/05 Javascript