服务器 NodeJs

NodeJS的url截取模块url-extract的使用实例

Posted in NodeJs onNovember 18, 2013

上次介绍了怎么利用NodeJS + PhantomJS进行截图，但由于对每次截图操作，都启用了一个PhantomJS进程，所以并发量上去后，效率堪忧，所以我们重写了所有代码，并将其独立成为一个模块，方便调用。
如何改进？控制线程数，以及单线程处理url数量。使用Standard Output & WebSocket 进行通讯。添加缓存机制，目前使用Javascript Object进行。对外提供简易的接口。

依赖 & 安装

由于PhantomJS 1.9.0+才开始支持Websocket，所以我们先要确定在PATH中的PhantomJS是为1.9.0以上版本。在命令行键入：

$ phantomjs -v

如果能返回版本号1.9.x，则可以继续操作。如果版本过低，或者出现错误，请到PhantomJS官网下载最新版本。

如果你已经安装了Git，或者拥有Git Shell，那么在命令行键入：
$ npm install url-extract

进行安装。

一个简单的例子

比如我们要截取百度首页，那么可以这样：

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job); process.exit(); }); })();

下面是打印：

NodeJS的url截取模块url-extract的使用实例

其中，image属性就是截图相对于工作路径的地址。我们可以使用Job的getData接口来得到更清楚的数据，例如：

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job.getData()); process.exit(); }); })();

打印就变成了这样了：

NodeJS的url截取模块url-extract的使用实例

image表示截图相对于工作路径的地址，status表示状态是否正常，true代表正常，false代表截图失败。

更多例子请参见：https://github.com/miniflycn/url-extract/tree/master/examples

主要API

.snapshot

url快照

.snapshot(url, [callback]).snapshot(urls, [callback]).snapshot(url, [option]).snapshot(urls, [option])

url {String} 要截取的地址 urls {Array} 要截取的地址数组 callback {Function} 回调函数 option {Object} 可选参数 ┝ id {String} 自定义url的id，如果第一个参数是urls，此参数无效 ┝ image {String} 自定义截图的保存地址，如果第一个参数是urls，此参数无效 ┝ groupId {String} 定义一组url的groupId，用于返回时候辨认是哪一组url ┝ ignoreCache {Boolean} 是否忽略缓存 ┗ callback {Function} 回调函数
.extract

url信息抓取，并获取快照
.extract(url, [callback]).extract(urls, [callback]).extract(url, [option]).extract(urls, [option])

url {String} 要截取的地址

urls {Array} 要截取的地址数组

callback {Function} 回调函数

option {Object} 可选参数

┝ id {String} 自定义url的id，如果第一个参数是urls，此参数无效

┝ image {String} 自定义截图的保存地址，如果第一个参数是urls，此参数无效

┝ groupId {String} 定义一组url的groupId，用于返回时候辨认是哪一组url

┝ ignoreCache {Boolean} 是否忽略缓存

┗ callback {Function} 回调函数

Job（类）

每一个url对应一个job对象，url的相关信息由job对象存储。

Field

url {String} 链接地址content {Boolean} 是否抓取页面的title和description信息id {String} job的idgroupId {String} 一堆job的组idcache {Boolean} 是否开启缓存callback {Function} 回调函数image {String} 图片地址status {Boolean} job当前是否正常

Prototype

getData() 获取job的相关数据

全局配置
url-extract根目录中的config文件可以进行全局配置，默认如下：
module.exports = { wsPort: 3001, maxJob: 100, maxQueueJob: 400, cache: 'object', maxCache: 10000, workerNum: 0};
wsPort {Number} websocket占用的端口地址maxJob {Number} 每个PhantomJS线程可并发worker数maxQueueJob {Number} 最大等待工作数量，0表示不限制，超过该数量，任何工作都直接返回失败（即status = false）cache {String} 缓存实现，目前只有object实现maxCache {Number} 最大缓存链接数workerNum {Number} PhantomJS线程数，0表示和CPU数量相同

一个简单的服务例子
https://github.com/miniflycn/url-extract-server-example

注意，需要安装connect和url-extract：

$ npm install

如果你下载了网盘的文件，那么请安装connect：

$ npm install connect

然后键入：

$ node bin/server

打开：

http://localhost:3000

查看效果。

;

NodeJS的url截取模块url-extract的使用实例

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

NodeJs 相关文章推荐

NodeJS的url截取模块url-extract的使用实例

Nov 18 NodeJs

基于promise.js实现nodejs的promises库

Jul 06 NodeJs

NodeJS学习笔记之（Url，QueryString，Path）模块

Jan 13 NodeJs

NodeJS和BootStrap分页效果的实现代码

Nov 07 NodeJs

nodejs的HTML分析利器node-jquery用法浅析

Nov 08 NodeJs

详解nodejs 文本操作模块-fs模块（五）

Dec 23 NodeJs

nodejs+express实现文件上传下载管理网站

Mar 15 NodeJs

Nodejs进阶：express+session实现简易登录身份认证

Apr 24 NodeJs

nodeJS实现路由功能实例代码

Jun 08 NodeJs

nodeJS（express4.x）+vue（vue-cli）构建前后端分离实例(带跨域)

Jul 05 NodeJs

NodeJs项目中关闭ESLint的方法

Aug 09 NodeJs

用Electron写个带界面的nodejs爬虫的实现方法

Jan 29 NodeJs

NodeJS url验证(url-valid)的使用方法

Nov 18 #NodeJs

NodeJS与Mysql的交互示例代码

Aug 18 #NodeJs

利用NodeJS的子进程(child_process)调用系统命令的方法分享

Jun 05 #NodeJs

将nodejs打包工具整合到鼠标右键的方法

May 11 #NodeJs

用nodejs写的一个简单项目打包工具

May 11 #NodeJs

nodejs教程安装express及配置app.js文件的详细步骤

May 11 #NodeJs

nodejs中exports与module.exports的区别详细介绍

Jan 14 #NodeJs

You might like

PHP将两个关联数组合并函数提高函数效率

2014/03/18 PHP

php 解决substr()截取中文字符乱码问题

2016/07/18 PHP

JS操作XML中DTD介绍及使用方法分析

2019/07/04 PHP

如何在PHP中读写文件

2020/09/07 PHP

Javascript客户端将指定区域导出到Word、Excel的代码

2008/10/22 Javascript

jQuery Ajax 实例全解析

2011/04/20 Javascript

IE中getElementsByName()对有些元素无效的解决方案

2014/09/28 Javascript

javascript中的遍历for in 以及with的用法

2014/12/22 Javascript

基于JQuery制作可编辑的表格特效

2014/12/23 Javascript

jQuery入门基础知识学习指南

2015/08/14 Javascript

javascript实现状态栏中文字动态显示的方法

2015/10/20 Javascript

原生JavaScript实现瀑布流布局

2020/06/28 Javascript

JS简单实现移动端日历功能示例

2016/12/28 Javascript

js实现简易聊天对话框

2017/08/17 Javascript

js 提取某()特殊字符串长度的实例

2017/12/06 Javascript

让你5分钟掌握9个JavaScript小技巧

2018/06/09 Javascript

对Layer UI 模块化的用法详解

2019/09/26 Javascript

js实现简单五子棋游戏

2020/05/28 Javascript

[51:36]Optic vs Newbee 2018国际邀请赛小组赛BO2 第一场 8.17

2018/08/18 DOTA

python删除文件示例分享

2014/01/28 Python

python使用正则表达式替换匹配成功的组

2017/11/17 Python

利用Tkinter(python3.6)实现一个简单计算器

2017/12/21 Python

Python中按键来获取指定的值

2019/03/02 Python

Pycharm+Python+PyQt5使用详解

2019/09/25 Python

使用tensorflow实现矩阵分解方式

2020/02/07 Python

VSCode基础使用与VSCode调试python程序入门的图文教程

2020/03/30 Python

关于keras.layers.Conv1D的kernel_size参数使用介绍

2020/05/22 Python

PyQt5 QDockWidget控件应用详解

2020/08/12 Python

Python计算矩阵的和积的实例详解

2020/09/10 Python

python 实现客户端与服务端的通信

2020/12/23 Python

计算机网络专业推荐信

2013/11/24 职场文书

《猴子种果树》教学反思

2014/04/26 职场文书

汉语言文学专业求职信

2014/06/19 职场文书

优秀会计求职信

2014/07/04 职场文书

大学生党员个人剖析材料

2014/10/08 职场文书

党的群众路线教育实践活动个人批评与自我批评

2014/10/16 职场文书