PHP实现的抓取小说网站内容功能示例


Posted in PHP onJune 27, 2019

本文实例讲述了PHP实现的抓取小说网站内容功能。分享给大家供大家参考,具体如下:

爬取免费内容,弄到手机,听书,妥妥的。

ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)');
ini_set('max_execution_time', '0');
$base = 'https://www.qu.la/book/19434/';
$start = '7504808.html';
$content_grep = '/    (.*)<br\/>/';
//$content_grep = '/<div id="content">(.*)<br\/>/sS';
$next_grep = '/<a id="pager_next" href=\"(\d+\.html)\" target="_top" class="next">下一章<\/a>/';
$next = $start;
$file_name = '听书了.txt';
while($next) {
  echo 'getting ' . $next . PHP_EOL;
  $result = file_get_contents($base . $next);
  preg_match_all($content_grep, $result, $match);
  $isTitle = true;
  $content = "";
  foreach($match[1] as $line) {
    $line  = str_replace("<br/>", '', $line);
    $line  = str_replace(" ", '', $line);
    if($isTitle) {
      $content = $line . PHP_EOL . PHP_EOL;
      $isTitle = false;
    } else {
      $content .= '    ' . $line . PHP_EOL . PHP_EOL;
    }
  }
  $file = fopen($file_name, 'a');
  echo 'write length: ' . strlen($content) . PHP_EOL;
  fwrite($file, $content);
  fclose($file);
  echo '.';
  preg_match($next_grep, $result, $match);
  $next = $match[1];
}

希望本文所述对大家PHP程序设计有所帮助。

PHP 相关文章推荐
PHP foreach循环使用详解与实例代码
May 08 PHP
允许phpmyadmin空密码登录的配置方法
May 29 PHP
php curl的深入解析
Jun 02 PHP
php number_format() 函数通过千位分组来格式化数字的实现代码
Aug 06 PHP
phpphp图片采集后按原路径保存图片示例
Feb 18 PHP
PHP在innodb引擎下快速代建全文搜索功能简明教程【基于xunsearch】
Oct 14 PHP
利用PHPStorm如何开发Laravel应用详解
Aug 30 PHP
PHP封装mysqli基于面向对象的mysql数据库操作类与用法示例
Feb 25 PHP
CI(CodeIgniter)框架中URL特殊字符处理与SQL注入隐患分析
Feb 28 PHP
redis+php实现微博(三)微博列表功能详解
Sep 23 PHP
PHP pthreads v3下worker和pool的使用方法示例
Feb 21 PHP
50个优秀经典PHP算法大集合 附源码
Aug 26 PHP
不常用但很实用的PHP预定义变量分析
Jun 25 #PHP
PHP中define() 与 const定义常量的区别详解
Jun 25 #PHP
php字符串截取函数mb_substr用法实例分析
Jun 25 #PHP
php过滤htmlspecialchars() 函数实现把预定义的字符转换为 HTML 实体用法分析
Jun 25 #PHP
Laravel向公共模板赋值方法总结
Jun 25 #PHP
php常用字符串长度函数strlen()与mb_strlen()用法实例分析
Jun 25 #PHP
PHP中遍历数组的三种常用方法实例分析
Jun 24 #PHP
You might like
PHP开发大型项目的一点经验
2006/10/09 PHP
防止用户利用PHP代码DOS造成用光网络带宽
2011/03/01 PHP
PHP中uploaded_files函数使用方法详解
2011/03/09 PHP
php字符集转换
2017/01/23 PHP
PHP PDOStatement::fetchColumn讲解
2019/01/31 PHP
线路分流自动跳转代码;希望对大家有用!
2006/12/02 Javascript
Javascript模块化编程(一)AMD规范(规范使用模块)
2013/01/17 Javascript
javascript设置连续两次点击按钮时间间隔的方法
2014/10/28 Javascript
jquery+html5时钟特效代码分享(可设置闹钟并且语音提醒)
2020/03/30 Javascript
JavaScript实现的SHA-1加密算法完整实例
2016/02/02 Javascript
jquery实现一个简单的表单验证实例
2016/03/30 Javascript
js和C# 时间日期格式转换的简单实例
2016/05/28 Javascript
slideToggle+slideup实现手机端折叠菜单效果
2017/05/25 Javascript
深入理解React Native原生模块与JS模块通信的几种方式
2017/07/24 Javascript
浅谈关于.vue文件中style的scoped属性
2017/08/19 Javascript
JS使用贪心算法解决找零问题示例
2017/11/27 Javascript
js原生实现移动端手指滑动轮播图效果的示例
2018/01/02 Javascript
微信小程序保存多张图片的实现方法
2019/03/05 Javascript
jquery登录的异步验证操作示例
2019/05/09 jQuery
关于layui的下拉搜索框异步加载数据的解决方法
2019/09/28 Javascript
微信跳一跳辅助python代码实现
2018/01/05 Python
python中的插值 scipy-interp的实现代码
2018/07/23 Python
Python二维码生成识别实例详解
2019/07/16 Python
Pytorch之parameters的使用
2019/12/31 Python
解决python cv2.imread 读取中文路径的图片返回为None的问题
2020/06/02 Python
Magee 1866官网:Donegal粗花呢外套和大衣专家
2019/11/01 全球购物
保加利亚运动鞋购物网站:SneakerStudio.bg
2020/12/23 全球购物
C#面试常见问题
2013/02/25 面试题
艺术专业大学生自我评价
2013/09/22 职场文书
大学军训感言
2014/01/10 职场文书
浙江文明网签名寄语
2014/01/18 职场文书
产品委托授权书范本
2014/09/16 职场文书
实验心得体会范文
2016/01/25 职场文书
2016年优秀共产党员先进事迹材料
2016/02/29 职场文书
CSS3 制作的彩虹按钮样式
2021/04/11 HTML / CSS
Mysql MVCC机制原理详解
2021/04/20 MySQL