php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
php基础知识:类与对象(3) 构造函数和析构函数
Dec 13 PHP
PHP生成带有雪花背景的验证码
Sep 28 PHP
php.ini-dist 和 php.ini-recommended 的区别介绍(方便开发与安全的朋友)
Jul 01 PHP
ThinkPHP开发框架函数详解:C方法
Aug 14 PHP
JavaScript与HTML结合的基本使用方法整理
Oct 12 PHP
CI框架中redis缓存相关操作文件示例代码
May 17 PHP
thinkphp jquery实现图片上传和预览效果
Jul 22 PHP
PHP实现基于面向对象的mysqli扩展库增删改查操作工具类
Jul 18 PHP
Thinkphp开发--集成极光推送
Sep 15 PHP
php设计模式之组合模式实例详解【星际争霸游戏案例】
Mar 27 PHP
php设计模式之职责链模式实例分析【星际争霸游戏案例】
Mar 27 PHP
PHP实现腾讯短网址生成api接口实例
Dec 08 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
PHP分页显示制作详细讲解
2006/10/09 PHP
php横向重复区域显示二法
2008/09/25 PHP
回帖脱衣服的图片实现代码
2014/02/15 PHP
PHPExcel读取EXCEL中的图片并保存到本地的方法
2015/02/14 PHP
PHP匿名函数和use子句用法实例
2016/03/16 PHP
Yii2 hasOne(), hasMany() 实现三表关联的方法(两种)
2017/02/15 PHP
php mysql PDO 查询操作的实例详解
2017/09/23 PHP
基于jquery实现拆分姓名的方法(纯JS版)
2013/05/08 Javascript
jquery使用append(content)方法注意事项分享
2014/01/06 Javascript
常规表格多表头查询示例
2014/02/21 Javascript
通过js为元素添加多项样式,浏览器全兼容写法
2014/08/30 Javascript
JS实现的生成随机数的4个函数分享
2015/02/11 Javascript
JavaScript+html5 canvas绘制的小人效果
2016/01/27 Javascript
JS使用单链表统计英语单词出现次数
2016/06/16 Javascript
解决wx.onMenuShareTimeline出现的问题
2016/08/16 Javascript
angular.js+node.js实现下载图片处理详解
2017/03/31 Javascript
javascript  数组排序与对象排序的实例
2017/07/17 Javascript
将jquery.qqFace.js表情转换成微信的字符码
2017/12/01 jQuery
纯javascript实现选择框的全选与反选功能
2019/04/08 Javascript
javascript定时器的简单应用示例【控制方块移动】
2019/06/17 Javascript
vue用ant design中table表格,点击某行时触发的事件操作
2020/10/28 Javascript
Python实现一个简单的MySQL类
2015/01/07 Python
Python异常处理操作实例详解
2018/08/28 Python
在scrapy中使用phantomJS实现异步爬取的方法
2018/12/17 Python
详解pandas删除缺失数据(pd.dropna()方法)
2019/06/25 Python
Python导入数值型Excel数据并生成矩阵操作
2020/06/09 Python
详解使用canvas保存网页为pdf文件支持跨域
2018/11/23 HTML / CSS
Blank NYC官网:夹克、牛仔裤等
2020/12/16 全球购物
香港艺人陈冠希创办的潮流品牌:JUICESTORE
2021/03/04 全球购物
如何获得EntityManager
2014/02/09 面试题
生产内勤岗位职责
2013/12/07 职场文书
简历自我评价怎么写好呢?
2014/01/04 职场文书
四风问题自查报告剖析材料
2014/02/08 职场文书
2014爱耳日宣传教育活动总结
2014/03/09 职场文书
2014年煤矿安全工作总结
2014/12/04 职场文书
幼儿园科学课教学反思
2016/03/03 职场文书