php 采集书并合成txt格式的实现代码


Posted in PHP onMarch 01, 2009

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

PHP 相关文章推荐
php 数学运算验证码实现代码
Oct 11 PHP
php file_put_contents()功能函数(集成了fopen、fwrite、fclose)
May 24 PHP
通过php快速统计某个数据库中每张表的数据量
Sep 04 PHP
php多维数组去掉重复值示例分享
Mar 02 PHP
PHP微信开发之二维码生成类
Jun 26 PHP
php实现网站文件批量压缩下载功能
Oct 28 PHP
Yii2表单事件之Ajax提交实现方法
May 04 PHP
PHP实现的折半查询算法示例
Oct 09 PHP
PHP chunk_split()函数讲解
Feb 12 PHP
浅析PHP 中move_uploaded_file 上传中文文件名失败
Apr 17 PHP
Laravel 集成微信用户登录和绑定的实现
Dec 27 PHP
laravel框架实现敏感词汇过滤功能示例
Feb 15 PHP
PHP Ajax中文乱码问题解决方法
Feb 27 #PHP
php下几个常用的去空、分组、调试数组函数
Feb 22 #PHP
PHP 编程的 5个良好习惯
Feb 20 #PHP
PHP 截取字符串 分别适合GB2312和UTF8编码情况
Feb 12 #PHP
PHP 操作文件的一些FAQ总结
Feb 12 #PHP
php实现从ftp服务器上下载文件树到本地电脑的程序
Feb 10 #PHP
PHP6 mysql连接方式说明
Feb 09 #PHP
You might like
php socket客户端及服务器端应用实例
2014/07/04 PHP
Discuz7.2版的faq.php SQL注入漏洞分析
2014/08/06 PHP
magento后台无法登录解决办法的两种方法
2016/12/09 PHP
浅谈php中curl、fsockopen的应用
2016/12/10 PHP
PHP封装函数实现生成随机的字符串验证码
2017/01/24 PHP
jquery imgareaselect 使用利用js与程序结合实现图片剪切
2009/07/30 Javascript
Extjs中使用extend(js继承) 的代码
2012/03/15 Javascript
超赞的jQuery图片滑块动画特效代码汇总
2016/01/25 Javascript
jquery实现表格中点击相应行变色功能效果【实例代码】
2016/05/09 Javascript
基于Bootstrap实现的下拉菜单手机端不能选择菜单项的原因附解决办法
2016/07/22 Javascript
JS与jQuery实现子窗口获取父窗口元素值的方法
2017/04/17 jQuery
React如何将组件渲染到指定DOM节点详解
2017/09/08 Javascript
jQuery Validate插件ajax方式验证输入值的实例
2017/12/21 jQuery
Angular通过指令动态添加组件问题
2018/07/09 Javascript
webpack4.x打包过程详解
2018/07/18 Javascript
layui数据表格 table.render 报错的解决方法
2019/09/29 Javascript
vue.config.js常用配置详解
2019/11/14 Javascript
可拖拽组件slider.js使用方法详解
2020/12/04 Javascript
vue动态设置路由权限的主要思路
2021/01/13 Vue.js
Python算法输出1-9数组形成的结果为100的所有运算式
2017/11/03 Python
python机器学习库常用汇总
2017/11/15 Python
TensorFlow模型保存和提取的方法
2018/03/08 Python
使用Python AIML搭建聊天机器人的方法示例
2018/07/09 Python
33个Python爬虫项目实战(推荐)
2019/07/08 Python
Python Django Vue 项目创建过程详解
2019/07/29 Python
使用python采集Excel表中某一格数据
2020/05/14 Python
如何用Java实现列出某个目录下的所有子目录
2015/07/20 面试题
高一地理教学反思
2014/01/18 职场文书
施工员岗位职责
2014/03/16 职场文书
小学生感恩演讲稿
2014/04/25 职场文书
坎儿井导游词
2015/02/09 职场文书
服装区域经理岗位职责
2015/04/10 职场文书
学校党支部公开承诺书
2015/04/30 职场文书
大学生就业意向书
2015/05/11 职场文书
小学三年级班主任工作经验交流材料
2015/11/02 职场文书
基于Apache Hudi在Google云构建数据湖平台的思路详解
2022/04/07 Servers