服务器 NodeJs

简单好用的nodejs 爬虫框架分享

Posted in NodeJs onMarch 26, 2017

这个就是一篇介绍爬虫框架的文章，开头就不说什么剧情了。什么最近一个项目了，什么分享新知了，剧情是挺好，但介绍的很初级，根本就没有办法应用，不支持队列的爬虫，都是耍流氓。所以我就先来举一个例子，看一下这个爬虫框架是多么简单并可用。

第一步：安装 Crawl-pet

nodejs 就不用多介绍吧，用 npm 安装 crawl-pet

$ npm install crawl-pet -g --production

运行，程序会引导你完成配置，首次运行，会在项目目录下生成 info.json 文件

$ crawl-pet

> Set project dir: ./test-crawl-pet
> Create crawl-pet in ./test-crawl-pet [y/n]: y
> Set target url: http://foodshot.co/
> Set save rule [url/simple/group]: url
> Set file type limit: 
> The limit: not limit
> Set parser rule module:
> The module: use default crawl-pet.parser

这里使用的测试网站 http://foodshot.co/ 是一个自由版权的，分享美食图片的网站，网站里的图片质量非常棒，这里用它只是为测试学习用，大家可以换其它网站测试

如果使用默认解析器的话，已经可以运行，看看效果:

$ crawl-pet -o ./test-crawl-pet

简单好用的nodejs 爬虫框架分享

试试看

这是下载后的目录结构

简单好用的nodejs 爬虫框架分享

本地目录结构

第二步：写自己的解析器

现在我们来看一看如何写自己的解析器，有三种方法来生成我们自己的解析器

在新建项目时, 在 Set parser rule module 输入自己的解释器路径。修改 info.json 下的 parser 项这个最简单，直接在项目录下新建一个 parser.js 文件

使用 crawl-pet，新建一个解析器模板

$ crawl-pet --create-parser ./test-crawl-pet/parser.js

打开 ./test-crawl-pet/parser.js 文件

// crawl-pet 支持使用 cheerio，来进行页面分析，如果你有这个需要
const cheerio = require("cheerio")

/*
 * header 函数是在请求发送前调用，可以配置请求的头信息，如果返回 false，则中断请求
 *
 * 参数：
 *  options:   详细设置请看 https://github.com/request/request
 *  crawler_handle: 与队列通信的对象，详情见下
 *
 * header 函数是可选的，可不写
 */
exports.header = function(options, crawler_handle) {  
}

/*
 * body 函数是在请求返回后调用，用来解析返回结果
 *
 * 参数:
 *  url:   请求的 url
 *  body:   请求返回结果, string 类型
 *  response:  请求的响应，详情请看： https://github.com/request/request
 *  crawler_handle: 与队列通信的对象，该对象包含以下方法
 *   .info    : crawl-pet 的配置信息
 *   .uri     : 当前请求的 uri 信息
 *   .addPage(url)  : 向队列里添加一个待解析页面
 *   .addDown(url)  : 向队列里添加一个待下载文件
 *   .save(content, ext) : 保存文本到本地，ext 设置保存文件的后缀名
 *   .over()    : 结束当前队列，取出下一条队列数据
 */

exports.body = function(url, body, response, crawler_handle) {
 const re = /\b(href|src)\s*=\s*["']([^'"#]+)/ig
 var m = null
 while (m = re.exec(body)){
  let href = m[2]
  if (/\.(png|gif|jpg|jpeg|mp4)\b/i.test(href)) {
    // 这理添加了一条下载
   crawler_handle.addDown(href)
  }else if(!/\.(css|js|json|xml|svg)/.test(href)){
    // 这理添加了一个待解析页面
   crawler_handle.addPage(href)
  }
 }
  // 记得在解析结束后一定要执行
 crawler_handle.over()
}

在最后会有一个分享，懂得的请往下看

第三步：查看爬取下来的数据

根据以下载到本地的文件，查找下载地址

$ crawl-pet -f ./test-crawl-pet/photos.foodshot.co/*.jpg

简单好用的nodejs 爬虫框架分享
查找下载地址

查看等待队列

$ crawl-pet -l queue

简单好用的nodejs 爬虫框架分享
查看等待队列

查看已下载的文件列表

$ crawl-pet -l down # 查看已下载列表中第 0 条后的5条数据 $ crawl-pet -l down,0,5 # --json 参数表示输出格式为 json $ crawl-pet -l down,0,5 --json

简单好用的nodejs 爬虫框架分享
已下载的文件

查看已解析页面列表，参数与查看已下载的相同

$ crawl-pet -l page

基本功能就这些了，看一下它的帮助吧

该爬虫框架是开源的，GIthub 地址在这里：https://github.com/wl879/Crawl-pet

$ crawl-pet --help

 Crawl-pet options help:

 -u, --url  string    Destination address
 -o, --outdir string    Save the directory, Default use pwd
 -r, --restart      Reload all page
 --clear        Clear queue
 --save   string    Save file rules following options
          = url: Save the path consistent with url
          = simple: Save file in the project path
          = group: Save 500 files in one folder
 --types   array    Limit download file type
 --limit   number=5   Concurrency limit
 --sleep   number=200   Concurrent interval
 --timeout  number=180000  Queue timeout
 --proxy   string    Set up proxy
 --parser  string    Set crawl rule, it's a js file path!
          The default load the parser.js file in the project path
 --maxsize  number    Limit the maximum size of the download file
 --minwidth  number    Limit the minimum width of the download file
 --minheight  number    Limit the minimum height of the download file
 -i, --info       View the configuration file
 -l, --list  array    View the queue data 
          e.g. [page/down/queue],0,-1
 -f, --find  array    Find the download URL of the local file
 --json        Print result to json format
 -v, --version      View version
 -h, --help       View help

最后分享一个配置

$ crawl-pet -u https://www.reddit.com/r/funny/ -o reddit --save group

info.json

{
 "url": "https://www.reddit.com/r/funny/",
 "outdir": ".",
 "save": "group",
 "types": "",
 "limit": "5",
 "parser": "my_parser.js",
 "sleep": "200",
 "timeout": "180000",
 "proxy": "",
 "maxsize": 0,
 "minwidth": 0,
 "minheight": 0,


 "cookie": "over18=1"
}

my_parser.js

exports.body = function(url, body, response, crawler_handle) {
 const re = /\b(data-url|href|src)\s*=\s*["']([^'"#]+)/ig
 var m = null
 while (m = re.exec(body)){
  let href = m[2]
  if (/thumb|user|icon|\.(css|json|js|xml|svg)\b/i.test(href)) {
   continue
  }
  if (/\.(png|gif|jpg|jpeg|mp4)\b/i.test(href)) {
   crawler_handle.addDown(href)
   continue
  }
  if(/reddit\.com\/r\//i.test(href)){
   crawler_handle.addPage(href)
  }
 }
 crawler_handle.over()
}

如果你是了解 reddit 的，那就这样了。

GIthub 地址在这里：https://github.com/wl879/Crawl-pet

本站下载地址：点击下载

简单好用的nodejs 爬虫框架分享

- Author -

wl879

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

NodeJs 相关文章推荐

实例详解Nodejs 保存 payload 发送过来的文件

Jan 14 NodeJs

Nodejs学习item【入门手上】

May 05 NodeJs

nodejs基于mssql模块连接sqlserver数据库的简单封装操作示例

Jan 05 NodeJs

nodejs搭建本地服务器轻松解决跨域问题

Mar 21 NodeJs

Linux Centos7.2下安装nodejs&npm配置全局路径的教程

May 15 NodeJs

nodejs的路径问题的解决

Jun 30 NodeJs

webpack打包nodejs项目的方法

Sep 26 NodeJs

nodejs aes 加解密实例

Oct 10 NodeJs

用Electron写个带界面的nodejs爬虫的实现方法

Jan 29 NodeJs

nodejs中实现用户注册路由功能

May 20 NodeJs

nodejs中的异步编程知识点详解

Jan 17 NodeJs

Nodejs实现微信分账的示例代码

Jan 19 NodeJs

nodejs开发——express路由与中间件

Mar 24 #NodeJs

详解NodeJS框架express的路径映射（路由）功能及控制

Mar 24 #NodeJs

NodeJS学习笔记之Module的简介

Mar 24 #NodeJs

详解nodejs中的process进程

Mar 19 #NodeJs

nodejs中使用HTTP分块响应和定时器示例代码

Mar 19 #NodeJs

nodejs中向HTTP响应传送进程的输出

Mar 19 #NodeJs

实例分析nodejs模块xml2js解析xml过程中遇到的坑

Mar 18 #NodeJs

You might like

php xml 入门学习资料

2011/01/01 PHP

php生成txt文件标题及内容的方法

2014/01/16 PHP

PHP字符串的递增和递减示例介绍

2014/02/11 PHP

PHP的魔术常量__METHOD__简介

2014/07/08 PHP

php查询mysql大量数据造成内存不足的解决方法

2015/03/04 PHP

深入浅出php socket编程

2015/05/13 PHP

PHP+jQuery+Ajax实现分页效果 jPaginate插件的应用

2015/10/09 PHP

简单解析PHP程序的运行流程

2016/06/23 PHP

tp5.1 框架数据库常见操作详解【添加、删除、更新、查询】

2020/05/26 PHP

JS 文件本身编码转换图文教程

2009/10/12 Javascript

ext jquery 简单比较

2010/04/07 Javascript

了解jQuery技巧来提高你的代码（个人觉得那个jquery的手册很不错）

2012/02/10 Javascript

如何用js控制frame的隐藏或显示的解决办法

2013/03/20 Javascript

JS onmousemove鼠标移动坐标接龙DIV效果实例

2013/12/16 Javascript

Jquery响应回车键直接提交表单操作代码

2014/07/25 Javascript

AngularJS定时器的使用与移除操作方法【interval与timeout】

2016/12/14 Javascript

EasyUI学习之Combobox级联下拉列表(2)

2016/12/29 Javascript

Javascript 高性能之递归，迭代，查表法详解及实例

2017/01/08 Javascript

jQuery中map函数的两种方式

2017/04/07 jQuery

vue-cli3.0实现一个多页面应用的历奇经历记录总结

2020/03/16 Javascript

vue使用自定义事件的表单输入组件用法详解【日期组件与货币组件】

2020/06/01 Javascript

[33:28]完美世界DOTA2联赛PWL S3 PXG vs GXR 第三场 12.19

2020/12/24 DOTA

用Python制作简单的朴素基数估计器的教程

2015/04/01 Python

python 3调用百度OCR API实现剪贴板文字识别

2018/09/04 Python

使用Python向C语言的链接库传递数组、结构体、指针类型的数据

2019/01/29 Python

mui几种页面跳转方式对比总结概括

2017/08/18 HTML / CSS

团日活动总结范文

2014/04/25 职场文书

小学教师师德演讲稿

2014/05/06 职场文书

学校师德师风整改措施

2014/10/27 职场文书

硕士学位论文评语

2014/12/31 职场文书

2015年资料员工作总结

2015/04/25 职场文书

孝女彩金观后感

2015/06/10 职场文书

我的生日感言

2015/08/03 职场文书

python 模块重载的五种方法

2021/04/24 Python

Django migrate报错的解决方案

2021/05/20 Python

PostgreSQL 插入INSERT、删除DELETE、更新UPDATE、事务transaction

2022/04/12 PostgreSQL