PHP 抓取新浪读书频道的小说并生成txt电子书的代码


Posted in PHP onDecember 18, 2009
/* Author: Yang Yu <yangyu@sina.cn> */ 
//想看什么电子书,先去新浪读书搜索,然后填入对应的参数即可 
//http://vip.book.sina.com.cn/ 
//电子书参数 
$array_book[0] = 38884; //小说id 
$array_book[1] = 22172; //章节起始id 
$array_book[2] = 32533; //章节结束id 
$array_book[3] = '中国特种部队生存实录:狼牙'; //小说名字 //匹配参数 
$title_pre = "/<h1>(.*?)<\/h1>/"; //标题部分 
$contents_pre = "/<div id=\"contTxt\" class=\"contTxt1\">(.*?)<\/div>/"; //内容部分 
//生成电子书 
for( $i = $array_book[1]; $i <= $array_book[2]; $i++){ 
$url = "http://vip.book.sina.com.cn/book/chapter_{$array_book[0]}_{$i}.html"; 
$html = file_get_contents($url); 
preg_match_all($title_pre,$html,$title); 
preg_match_all($contents_pre,$html,$contents); 
$fh = fopen($array_book[3].'.txt','a+'); 
$write_contents = $title[1][0]."\r\n".str_replace('</p>',"\r\n",str_replace('<p>',' ',$contents[1][0]))."\r\n"; 
if( fwrite($fh,$write_contents) ){ 
echo '第'.$i.'节抓取完毕< /br>'; 
} 
fclose($fh); 
}
PHP 相关文章推荐
VML绘图板②脚本--VMLgraph.js、XMLtool.js
Oct 09 PHP
php实现首页链接查询 友情链接检查的代码
Jan 05 PHP
php session安全问题分析
Jun 24 PHP
基于Snoopy的PHP近似完美获取网站编码的代码
Oct 23 PHP
php class中self,parent,this的区别以及实例介绍
Apr 24 PHP
解析smarty 截取字符串函数 truncate的用法介绍
Jun 20 PHP
深入解析fsockopen与pfsockopen的区别
Jul 05 PHP
php float不四舍五入截取浮点型字符串方法总结
Oct 28 PHP
php实现判断访问来路是否为搜索引擎机器人的方法
Apr 15 PHP
php使用Jpgraph绘制饼状图的方法
Jun 10 PHP
调用WordPress函数统计文章访问量及PHP原生计数器的实现
Mar 21 PHP
Yii CFileCache 获取不到值的原因分析
Feb 08 PHP
PHP strtotime函数详解
Dec 18 #PHP
php 日期时间处理函数小结
Dec 18 #PHP
php 计算两个时间戳相隔的时间的函数(小时)
Dec 18 #PHP
php 来访国内外IP判断代码并实现页面跳转
Dec 18 #PHP
php jquery 实现新闻标签分类与无刷新分页
Dec 18 #PHP
PHP XML操作类DOMDocument
Dec 16 #PHP
PHP下编码转换函数mb_convert_encoding与iconv的使用说明
Dec 16 #PHP
You might like
PHP中header和session_start前不能有输出原因分析
2013/01/11 PHP
PHP闭包实例解析
2014/09/08 PHP
php实现俄罗斯乘法实例
2015/03/07 PHP
linux平台编译安装PHP7并安装Redis扩展与Swoole扩展实例教程
2016/09/30 PHP
thinkPHP线上自动加载异常与修复方法实例分析
2016/12/01 PHP
PHP 中TP5 Request 请求对象的实例详解
2017/07/31 PHP
PHP实现的二分查找算法实例分析
2017/12/19 PHP
按钮JS复制文本框和表格的代码
2011/04/01 Javascript
express的中间件basicAuth详解
2014/12/04 Javascript
node.js中的console.trace方法使用说明
2014/12/09 Javascript
js时间比较 js计算时间差的简单实现方法
2016/08/26 Javascript
js中用cssText设置css样式的简单方法
2016/09/19 Javascript
微信小程序  http请求封装详解及实例代码
2017/02/15 Javascript
前端自动化开发之Node.js的环境搭建教程
2017/04/01 Javascript
javascript防篡改对象实例详解
2017/04/10 Javascript
Extjs 中的 Treepanel 实现菜单级联选中效果及实例代码
2017/08/22 Javascript
AngularJS日期格式化常见操作实例分析
2018/05/17 Javascript
vue-cli 引入jQuery,Bootstrap,popper的方法
2018/09/03 jQuery
layui 富文本赋值,取值,取纯文本值的实例
2019/09/18 Javascript
Vue 嵌套路由使用总结(推荐)
2020/01/13 Javascript
小程序实现列表展开收起效果
2020/07/29 Javascript
Python3通过Luhn算法快速验证信用卡卡号的方法
2015/05/14 Python
Python抓取百度查询结果的方法
2015/07/08 Python
Python中方法链的使用方法
2016/02/23 Python
Python优化技巧之利用ctypes提高执行速度
2016/09/11 Python
python使用筛选法计算小于给定数字的所有素数
2018/03/19 Python
Python通过Pillow实现图片对比
2020/04/29 Python
关于matplotlib-legend 位置属性 loc 使用说明
2020/05/16 Python
使用pth文件添加Python环境变量方式
2020/05/26 Python
Linux Interview Questions For software testers
2012/06/02 面试题
求职信内容考虑哪几点
2013/10/05 职场文书
三年大学生活自我鉴定
2014/01/21 职场文书
2014副局长群众路线对照检查材料思想汇报
2014/09/22 职场文书
2015年乡镇扶贫工作总结
2015/04/08 职场文书
领导视察通讯稿
2015/07/18 职场文书
vue postcss-px2rem 自适应布局
2022/05/15 Vue.js