php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
php smarty模版引擎中的缓存应用
Dec 11 PHP
FirePHP 推荐一款PHP调试工具
Apr 23 PHP
国外PHP程序员的13个好习惯小结
Feb 20 PHP
学习php过程中的一些注意点的总结
Oct 25 PHP
php数组中删除元素之重新索引的方法
Sep 16 PHP
php实现的zip文件内容比较类
Sep 24 PHP
laravel安装和配置教程
Oct 29 PHP
php轻松实现文件上传功能
Mar 03 PHP
php使用Jpgraph创建3D饼形图效果示例
Feb 15 PHP
php数组实现根据某个键值将相同键值合并生成新二维数组的方法
Apr 26 PHP
php 使用expat方式解析xml文件操作示例
Nov 26 PHP
php5.3/5.4/5.5/5.6/7常见新增特性汇总整理
Feb 27 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
一个php导出oracle库的php代码
2009/04/20 PHP
自己在做项目过程中学到的PHP知识收集
2012/08/20 PHP
PHP获取栏目的所有子级和孙级栏目的ID号示例
2014/04/01 PHP
thinkphp使用phpmailer发送邮件的方法
2014/11/24 PHP
Linux环境下php实现给网站截图的方法
2016/05/03 PHP
javascript Object与Function使用
2010/01/11 Javascript
JavaScript学习笔记(二) js对象
2011/10/25 Javascript
8款非常棒的响应式jQuery 幻灯片插件推荐
2012/02/02 Javascript
学习从实践开始之jQuery插件开发 对话框插件开发
2012/04/26 Javascript
jquery Mobile入门—多页面切换示例学习
2013/01/08 Javascript
javascript中关于&amp;&amp; 和 || 表达式的小技巧分享
2015/04/10 Javascript
Jquery简单实现GridView行高亮的方法
2015/06/15 Javascript
JS实现的5级联动Select下拉选择框实例
2015/08/17 Javascript
详解JavaScript的回调函数
2015/11/20 Javascript
.net MVC+Bootstrap下使用localResizeIMG上传图片
2017/04/21 Javascript
vue2.0s中eventBus实现兄弟组件通信的示例代码
2017/10/25 Javascript
vue定义全局变量和全局方法的方法示例
2018/08/01 Javascript
webpack3里使用uglifyjs压缩js时打包报错的解决
2018/12/13 Javascript
微信小程序swiper左右扩展各显示一半代码实例
2019/12/05 Javascript
vue实现div可拖动位置也可改变盒子大小的原理
2020/09/16 Javascript
Javascript异步流程控制之串行执行详解
2020/09/27 Javascript
[40:13]Ti4 冒泡赛第二天 iG vs NEWBEE 2
2014/07/15 DOTA
python求素数示例分享
2014/02/16 Python
在windows下快速搭建web.py开发框架方法
2016/04/22 Python
浅析Python中MySQLdb的事务处理功能
2016/09/21 Python
Python实现CNN的多通道输入实例
2020/01/17 Python
python可以用哪些数据库
2020/06/22 Python
中国跨境电子商务网站:NewFrog
2018/03/10 全球购物
MyBag中文网:英国著名的时尚包袋电商零售网站
2020/07/31 全球购物
制药工程专业毕业生推荐信
2013/12/24 职场文书
船舶专业个人求职信范文
2014/01/02 职场文书
婚纱摄影师求职信范文
2014/04/17 职场文书
幼儿园优秀班主任事迹材料
2014/05/14 职场文书
2016年中秋节晚会领导致辞
2015/11/26 职场文书
使用HTML+Css+transform实现3D导航栏的示例代码
2021/03/31 HTML / CSS
HTML中的表单元素介绍
2022/02/28 HTML / CSS