php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
php中文件上传的安全问题
Oct 09 PHP
PHP4和PHP5共存于一系统
Nov 17 PHP
PHP4中session登录页面的应用
Jul 25 PHP
PHP 执行系统外部命令 system() exec() passthru()
Aug 11 PHP
php中session_unset与session_destroy的区别分析
Jun 16 PHP
PHP strip_tags()去除HTML、XML以及PHP的标签介绍
Feb 18 PHP
destoon实现VIP排名一直在前面排序的方法
Aug 21 PHP
Windows下的PHP 5.3.x安装 Zend Guard Loader教程
Sep 06 PHP
PHP rsa加密解密使用方法
Apr 27 PHP
smarty模板判断数组为空的方法
Jun 10 PHP
php之可变变量的实例详解
Sep 12 PHP
PHP实现字母数字混合验证码功能
Jul 11 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
php 模拟GMAIL,HOTMAIL(MSN),YAHOO,163,126邮箱登录的详细介绍
2013/06/18 PHP
php生成随机密码自定义函数代码(简单快速)
2014/05/10 PHP
PHP自带ZIP压缩、解压缩类ZipArchiv使用指南
2015/03/03 PHP
JavaScript 中的replace方法说明
2007/04/13 Javascript
用于判断用户注册时,密码强度的JS代码
2009/01/01 Javascript
基于jquery的9行js轻松实现tab控件示例
2013/10/12 Javascript
模拟一个类似百度google的模糊搜索下拉列表
2014/04/15 Javascript
Javascript 实现复制(Copy)动作方法大全
2014/06/20 Javascript
从JQuery源码分析JavaScript函数的apply方法与call方法
2014/09/25 Javascript
Javascript实现计算个人所得税
2015/05/10 Javascript
jQuery常用且重要方法汇总
2015/07/13 Javascript
XML文件转化成NSData对象的方法
2015/08/12 Javascript
js基于setTimeout与setInterval实现多线程
2016/06/17 Javascript
JavaScript事件用法浅析
2016/10/31 Javascript
js仿百度音乐全选操作
2017/01/13 Javascript
详解JavaScript RegExp对象
2017/02/04 Javascript
利用Node.js编写跨平台的spawn语句详解
2017/02/12 Javascript
JS实现的简单拖拽功能示例
2017/03/13 Javascript
解决Layui 表单提交数据为空的问题
2018/08/15 Javascript
JS加载解析Markdown文档过程详解
2020/05/19 Javascript
快速了解Vue父子组件传值以及父调子方法、子调父方法
2020/07/15 Javascript
python批量下载图片的三种方法
2013/04/22 Python
Python从零开始创建区块链
2018/03/06 Python
python 处理数字,把大于上限的数字置零实现方法
2019/01/28 Python
Python根据成绩分析系统浅析
2019/02/11 Python
Python实现的删除重复文件或图片功能示例【去重】
2019/04/23 Python
Python partial函数原理及用法解析
2019/12/11 Python
Python datetime 格式化 明天,昨天实例
2020/03/02 Python
Python导入模块包原理及相关注意事项
2020/03/25 Python
使用python-cv2实现Harr+Adaboost人脸识别的示例
2020/10/27 Python
如何让IE9以下版本(ie6/7/8)认识html5元素
2013/04/01 HTML / CSS
教师研修随笔感言
2014/01/23 职场文书
小学生学习感言
2014/03/10 职场文书
中华美德颂演讲稿
2014/05/20 职场文书
商业街策划方案
2014/05/31 职场文书
Golang 并发编程 SingleFlight模式
2022/04/26 Golang