TP5框架使用QueryList采集框架爬小说操作示例


Posted in PHP onMarch 26, 2020

本文实例讲述了TP5框架使用QueryList采集框架爬小说操作。分享给大家供大家参考,具体如下:

最近想写一个小说网站,就去搜资料,搜出来TP5可以使用QueryList采集框架去爬小说,这里我来给大家详解如何用QueryList去爬小说。
#首先应该下载TP5框架,然后在extend里面建立一个文件夹命名为QL,再去官网下载QueryList,然后把phpQuery.php 和 QueryList.php 两个文件放在QL文件夹下,如图:
TP5框架使用QueryList采集框架爬小说操作示例
##在QueryList.php里面加上命名空间:

namespace QL;
require ‘phpQuery.php';

use phpQuery,Exception,ReflectionClass;
use Monolog\Logger;
use Monolog\Handler\StreamHandler;
use Iterator,Countable,ArrayAccess;//使用phpQuuery接口

#准备工作做好了下来开始采集小说(我们这里以https://www.17k.com/这个网站的免费小说为例)

##先找到你要采集的小说的目录页面的url作为采集url

##再在url前面加上 view-source: 查看他的源码,找到包含所有章节url的class属性,写好采集规则,执行语句进行采集

##采集他的章节名和每一章节的url,因为url采集下来没有域名,需要用正则表达式加上https://www.17k.com 然后采用for循环去一个一个采集每一章节的内容

##最后再将采集到的章节名与章节内容存入数据库

直接上代码:

<?php
namespace app\index\Controller;
use think\Controller;
use QL\QueryList;
 
class Xiaoshuo extends Controller
{
  public function index()
  {
    //采集目标
    //$url = 'https://www.17k.com/list/3032846.html?offset=';
     $url = 'https://www.17k.com/list/3041226.html?offset=';
    //采集规则
    $rules = array(
          'title'=>array('.ellipsis','text'),//获取书每个章节名
          'link'=>array('.Volume a','href','-.folding -copy -a'),//获取每个章节链接
        );
    //开始采集
    $data = QueryList::Query($url,$rules)->data;
    //var_dump($data);
    //求数组长度
     $j = count($data);
    if($data)
    {
      for($i=0;$i<=$j-1;$i++)
      {
       $values = ['title'=>$data[$i]['title'],'link'=>$data[$i+1]['link']];
       $_POST['url']=$data[$i+1]['link'];
       if (!preg_match("/^(http|ftp):/", $_POST['url']))//给链接加上域名头
        {
         $url1 = 'https://www.17k.com'.$_POST['url'];
        }
       $rules1 = array(
          'novel'=>array('.p','text','-li -a'),
          );
       $data1 = QueryList::Query($url1,$rules1)->data;
       //var_dump($data1);
       $values1 = ['title'=>$data[$i]['title'],'novel'=>$data1[0]['novel']];//将章节名、内容插入数据库
       $data2 = \think\Db::name('novel6')->insert($values1); 
      }
    }
    
  }
}

我们来打印一下他的章节名和章节内容:
TP5框架使用QueryList采集框架爬小说操作示例TP5框架使用QueryList采集框架爬小说操作示例注:1.class属性一定要找对
2.采集下来 $data 的第一个数组的link不是第一章的url,下一个才是第一章的,所以 data[ data[" role="presentation" style="position: relative;">data[i+1][‘link'] 是他第i章的url

希望本文所述对大家基于ThinkPHP框架的PHP程序设计有所帮助。

PHP 相关文章推荐
PHP中for循环语句的几种变型
Nov 26 PHP
自己前几天写的无限分类类
Feb 14 PHP
php 三维饼图的实现代码
Sep 28 PHP
php数组相加 array(“a”)+array(“b”)结果还是array(“a”)
Sep 19 PHP
php中session与cookie的比较
Jan 27 PHP
谈谈PHP连接Access数据库的注意事项
Aug 12 PHP
PHP jpgraph库的配置及生成统计图表:折线图、柱状图、饼状图
May 15 PHP
PHP网站自动化配置的实现方法(必看)
May 27 PHP
PHP多进程编程实例详解
Jul 19 PHP
php实现的数组转xml案例分析
Sep 28 PHP
php5.3/5.4/5.5/5.6/7常见新增特性汇总整理
Feb 27 PHP
php操作redis命令及代码实例大全
Nov 19 PHP
PHP实现基本留言板功能原理与步骤详解
Mar 26 #PHP
php设计模式之策略模式实例分析【星际争霸游戏案例】
Mar 26 #PHP
php设计模式之状态模式实例分析【星际争霸游戏案例】
Mar 26 #PHP
php设计模式之正面模式实例分析【星际争霸游戏案例】
Mar 24 #PHP
php设计模式之模板模式实例分析【星际争霸游戏案例】
Mar 24 #PHP
php设计模式之备忘模式分析【星际争霸游戏案例】
Mar 24 #PHP
php设计模式之原型模式分析【星际争霸游戏案例】
Mar 23 #PHP
You might like
php轻松实现中英文混排字符串截取
2014/05/28 PHP
php检测数组长度函数sizeof与count用法
2014/11/17 PHP
详解PHP多个进程配合redis的有序集合实现大文件去重
2019/03/06 PHP
Yii框架的路由配置方法分析
2019/09/09 PHP
$()JS小技巧
2007/07/21 Javascript
jquery 日期控件datepicker属性详细解析
2013/11/08 Javascript
JS实现简洁、全兼容的拖动层实例
2015/05/13 Javascript
JQuery工具函数汇总
2015/06/15 Javascript
jQuery获取复选框被选中数量及判断选择值的方法详解
2016/05/25 Javascript
js 自带的 map() 方法全面了解
2016/08/16 Javascript
ComboBox(下拉列表框)通过url加载调用远程数据的方法
2017/08/06 Javascript
JS实现的简单四则运算计算器功能示例
2017/09/27 Javascript
react中的ajax封装实例详解
2017/10/17 Javascript
浅谈node.js 命令行工具(cli)
2018/05/10 Javascript
微信小程序实现即时通信聊天功能的实例代码
2018/08/17 Javascript
代码整洁之道(重构)
2018/10/25 Javascript
vue中tab选项卡的实现思路
2018/11/25 Javascript
javascript浅层克隆、深度克隆对比及实例解析
2020/02/09 Javascript
[01:09:13]DOTA2-DPC中国联赛 正赛 CDEC vs XG BO3 第三场 1月19日
2021/03/11 DOTA
python基础教程之基本内置数据类型介绍
2014/02/20 Python
Python编程语言的35个与众不同之处(语言特征和使用技巧)
2014/07/07 Python
跟老齐学Python之总结参数的传递
2014/10/10 Python
python一键升级所有pip package的方法
2017/01/16 Python
Python简单基础小程序的实例代码
2019/04/28 Python
PyQt5 QListWidget选择多项并返回的实例
2019/06/17 Python
react+django清除浏览器缓存的几种方法小结
2019/07/17 Python
python文件操作的简单方法总结
2019/11/07 Python
Django-xadmin+rule对象级权限的实现方式
2020/03/30 Python
意大利奢侈品购物网站:Giglio
2018/01/05 全球购物
农村婚礼证婚词
2014/01/08 职场文书
优秀士兵先进事迹
2014/02/06 职场文书
党员大会主持词
2014/04/02 职场文书
2014年管理人员工作总结
2014/12/01 职场文书
慈善募捐倡议书
2015/04/27 职场文书
2015秋季幼儿园开学通知
2015/07/16 职场文书
苹果M1芯片安装nginx 并且部署vue项目步骤详解
2021/11/20 Servers