PHP实现的抓取小说网站内容功能示例


Posted in PHP onJune 27, 2019

本文实例讲述了PHP实现的抓取小说网站内容功能。分享给大家供大家参考,具体如下:

爬取免费内容,弄到手机,听书,妥妥的。

ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)');
ini_set('max_execution_time', '0');
$base = 'https://www.qu.la/book/19434/';
$start = '7504808.html';
$content_grep = '/    (.*)<br\/>/';
//$content_grep = '/<div id="content">(.*)<br\/>/sS';
$next_grep = '/<a id="pager_next" href=\"(\d+\.html)\" target="_top" class="next">下一章<\/a>/';
$next = $start;
$file_name = '听书了.txt';
while($next) {
  echo 'getting ' . $next . PHP_EOL;
  $result = file_get_contents($base . $next);
  preg_match_all($content_grep, $result, $match);
  $isTitle = true;
  $content = "";
  foreach($match[1] as $line) {
    $line  = str_replace("<br/>", '', $line);
    $line  = str_replace(" ", '', $line);
    if($isTitle) {
      $content = $line . PHP_EOL . PHP_EOL;
      $isTitle = false;
    } else {
      $content .= '    ' . $line . PHP_EOL . PHP_EOL;
    }
  }
  $file = fopen($file_name, 'a');
  echo 'write length: ' . strlen($content) . PHP_EOL;
  fwrite($file, $content);
  fclose($file);
  echo '.';
  preg_match($next_grep, $result, $match);
  $next = $match[1];
}

希望本文所述对大家PHP程序设计有所帮助。

PHP 相关文章推荐
学习discuz php 引入文件的方法DISCUZ_ROOT
Jun 21 PHP
生成ubuntu自动切换壁纸xml文件的php代码
Jul 17 PHP
兼容firefox,chrome的网页灰度效果
Aug 08 PHP
使用php 获取时间今天明天昨天时间戳的详解
Jun 20 PHP
如何给phpcms v9增加类似于phpcms 2008中的关键词表
Jul 01 PHP
初识php MVC
Sep 10 PHP
一个php生成16位随机数的代码(两种方法)
Sep 16 PHP
php简单获取文件扩展名的方法
Mar 24 PHP
php实现统计网站在线人数的方法
May 12 PHP
php使用substr()和strpos()联合查找字符串中某一特定字符的方法
May 12 PHP
9个比较实用的php代码片段
Mar 15 PHP
JavaScript实现删除电脑的关机键
Jul 26 PHP
不常用但很实用的PHP预定义变量分析
Jun 25 #PHP
PHP中define() 与 const定义常量的区别详解
Jun 25 #PHP
php字符串截取函数mb_substr用法实例分析
Jun 25 #PHP
php过滤htmlspecialchars() 函数实现把预定义的字符转换为 HTML 实体用法分析
Jun 25 #PHP
Laravel向公共模板赋值方法总结
Jun 25 #PHP
php常用字符串长度函数strlen()与mb_strlen()用法实例分析
Jun 25 #PHP
PHP中遍历数组的三种常用方法实例分析
Jun 24 #PHP
You might like
解析php中两种缩放图片的函数,为图片添加水印
2013/06/14 PHP
实现PHP搜索加分页
2016/10/12 PHP
PHP在线打包下载功能示例
2016/10/15 PHP
PHP APP微信提现接口代码
2018/09/30 PHP
Yii Framework框架使用PHPExcel组件的方法示例
2019/07/24 PHP
在textarea中屏蔽js的某个function的javascript代码
2007/04/20 Javascript
元素的内联事件处理函数的特殊作用域在各浏览器中存在差异
2011/01/12 Javascript
jQuery hover 延时器实现代码
2011/03/12 Javascript
通过Jquery的Ajax方法读取将table转换为Json
2014/05/31 Javascript
2则自己编写的jQuery特效分享
2015/02/26 Javascript
jQuery复制表单元素附源码分享效果演示
2015/09/30 Javascript
javascript实现仿百度图片的瀑布流加载效果
2016/04/20 Javascript
Bootstrap滚动监听(Scrollspy)插件详解
2016/04/26 Javascript
JavaScript自动点击链接 防止绕过浏览器访问的方法
2017/01/19 Javascript
jQuery中clone()函数实现表单中增加和减少输入项
2017/05/13 jQuery
angularjs实现搜索的关键字在正文中高亮出来
2017/06/13 Javascript
解决vue 界面在苹果手机上滑动点击事件等卡顿问题
2018/11/27 Javascript
vue动态配置模板 'component is'代码
2019/07/04 Javascript
微信小程序学习之自定义滚动弹窗
2020/12/20 Javascript
Python IDE PyCharm的基本快捷键和配置简介
2015/11/04 Python
整理Python 常用string函数(收藏)
2016/05/30 Python
Python的collections模块中namedtuple结构使用示例
2016/07/07 Python
解决Django Haystack全文检索为空的问题
2020/05/19 Python
PyTorch中clone()、detach()及相关扩展详解
2020/12/09 Python
关于python中remove的一些坑小结
2021/01/04 Python
html5版canvas自由拼图实例
2014/10/15 HTML / CSS
解析HTML5的存储功能和web SQL的相关操作方法
2016/02/19 HTML / CSS
Get The Label中文官网:英国运动时尚购物平台
2017/04/19 全球购物
班长岗位职责
2013/11/10 职场文书
企业文化演讲稿
2014/05/20 职场文书
广告宣传策划方案
2014/05/21 职场文书
在校大学生自我评价范文
2014/09/12 职场文书
2014年员工工作总结范文
2014/11/18 职场文书
小学生手册家长意见
2015/06/03 职场文书
文明和谐家庭事迹材料(2016精选版)
2016/02/29 职场文书
js实现模拟购物商城案例
2021/05/18 Javascript