NodeJS的url截取模块url-extract的使用实例


Posted in NodeJs onNovember 18, 2013

上次介绍了怎么利用NodeJS + PhantomJS进行截图,但由于对每次截图操作,都启用了一个PhantomJS进程,所以并发量上去后,效率堪忧,所以我们重写了所有代码,并将其独立成为一个模块,方便调用。
如何改进?控制线程数,以及单线程处理url数量。使用Standard Output & WebSocket 进行通讯。添加缓存机制,目前使用Javascript Object进行。对外提供简易的接口。

设计图

NodeJS的url截取模块url-extract的使用实例

 

依赖 & 安装

由于PhantomJS 1.9.0+才开始支持Websocket,所以我们先要确定在PATH中的PhantomJS是为1.9.0以上版本。在命令行键入:

$ phantomjs -v

如果能返回版本号1.9.x,则可以继续操作。如果版本过低,或者出现错误,请到PhantomJS官网下载最新版本。

如果你已经安装了Git,或者拥有Git Shell,那么在命令行键入:
$ npm install url-extract

进行安装。

一个简单的例子

比如我们要截取百度首页,那么可以这样:

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job); process.exit(); }); })();

下面是打印:

NodeJS的url截取模块url-extract的使用实例

其中,image属性就是截图相对于工作路径的地址。我们可以使用Job的getData接口来得到更清楚的数据,例如:

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job.getData()); process.exit(); }); })();

打印就变成了这样了:

NodeJS的url截取模块url-extract的使用实例

image表示截图相对于工作路径的地址,status表示状态是否正常,true代表正常,false代表截图失败。

更多例子请参见:https://github.com/miniflycn/url-extract/tree/master/examples

 

主要API

.snapshot

url快照

.snapshot(url, [callback]).snapshot(urls, [callback]).snapshot(url, [option]).snapshot(urls, [option])
url {String} 要截取的地址 urls {Array} 要截取的地址数组 callback {Function} 回调函数 option {Object} 可选参数 ┝ id {String} 自定义url的id,如果第一个参数是urls,此参数无效 ┝ image {String} 自定义截图的保存地址,如果第一个参数是urls,此参数无效 ┝ groupId {String} 定义一组url的groupId,用于返回时候辨认是哪一组url ┝ ignoreCache {Boolean} 是否忽略缓存 ┗ callback {Function} 回调函数

.extract

url信息抓取,并获取快照

.extract(url, [callback]).extract(urls, [callback]).extract(url, [option]).extract(urls, [option])

url {String} 要截取的地址

urls {Array} 要截取的地址数组

callback {Function} 回调函数

option {Object} 可选参数

┝ id {String} 自定义url的id,如果第一个参数是urls,此参数无效

┝ image {String} 自定义截图的保存地址,如果第一个参数是urls,此参数无效

┝ groupId {String} 定义一组url的groupId,用于返回时候辨认是哪一组url

┝ ignoreCache {Boolean} 是否忽略缓存

┗ callback {Function} 回调函数

Job(类)

每一个url对应一个job对象,url的相关信息由job对象存储。

Field

url {String} 链接地址content {Boolean} 是否抓取页面的title和description信息id {String} job的idgroupId {String} 一堆job的组idcache {Boolean} 是否开启缓存callback {Function} 回调函数image {String} 图片地址status {Boolean} job当前是否正常

Prototype

getData() 获取job的相关数据

 

全局配置

url-extract根目录中的config文件可以进行全局配置,默认如下:

module.exports = { wsPort: 3001, maxJob: 100, maxQueueJob: 400, cache: 'object', maxCache: 10000, workerNum: 0};
wsPort {Number} websocket占用的端口地址maxJob {Number} 每个PhantomJS线程可并发worker数maxQueueJob {Number} 最大等待工作数量,0表示不限制,超过该数量,任何工作都直接返回失败(即status = false)cache {String} 缓存实现,目前只有object实现maxCache {Number} 最大缓存链接数workerNum {Number} PhantomJS线程数,0表示和CPU数量相同

 

一个简单的服务例子

https://github.com/miniflycn/url-extract-server-example

注意,需要安装connect和url-extract:

$ npm install

如果你下载了网盘的文件,那么请安装connect:

$ npm install connect

然后键入:

$ node bin/server

打开:

http://localhost:3000

查看效果。

 

;
NodeJs 相关文章推荐
nodejs实现获取当前url地址及url各种参数值
Jun 25 NodeJs
nodejs爬虫抓取数据乱码问题总结
Jul 03 NodeJs
浅析nodejs实现Websocket的数据接收与发送
Nov 19 NodeJs
进阶之初探nodeJS
Jan 24 NodeJs
nodejs读写json文件的简单方法(必看)
Mar 09 NodeJs
配置nodejs环境的方法
May 13 NodeJs
详解nodejs模板引擎制作
Jun 14 NodeJs
详解NODEJS基于FFMPEG视频推流测试
Nov 17 NodeJs
nodejs中Express与Koa2对比分析
Feb 06 NodeJs
nodeJs实现基于连接池连接mysql的方法示例
Feb 10 NodeJs
nodejs的安装使用与npm的介绍
Sep 11 NodeJs
一文秒懂nodejs中的异步编程
Jan 28 NodeJs
NodeJS url验证(url-valid)的使用方法
Nov 18 #NodeJs
NodeJS与Mysql的交互示例代码
Aug 18 #NodeJs
利用NodeJS的子进程(child_process)调用系统命令的方法分享
Jun 05 #NodeJs
将nodejs打包工具整合到鼠标右键的方法
May 11 #NodeJs
用nodejs写的一个简单项目打包工具
May 11 #NodeJs
nodejs教程 安装express及配置app.js文件的详细步骤
May 11 #NodeJs
nodejs中exports与module.exports的区别详细介绍
Jan 14 #NodeJs
You might like
使用PHP实现阻止用户上传成人照片或者裸照
2014/12/25 PHP
详解php魔术方法(Magic methods)的使用方法
2016/02/14 PHP
php获取flash尺寸详细数据的方法
2016/11/12 PHP
不错的一个日期输入 动态
2006/11/06 Javascript
基于jquery的滚动鼠标放大缩小图片效果
2011/10/27 Javascript
jquery实现图片翻页效果
2013/12/23 Javascript
javascript用函数实现对象的方法
2015/05/14 Javascript
AngularJS进行性能调优的7个建议
2015/12/28 Javascript
Js 获取、判断浏览器版本信息的简单方法
2016/08/08 Javascript
JavaScript中三个等号和两个等号的区别(== 和 ===)浅析
2016/09/22 Javascript
bootstrap模态框垂直居中效果
2016/12/03 Javascript
backbone简介_动力节点Java学院整理
2017/07/14 Javascript
vue中element-ui表格缩略图悬浮放大功能的实例代码
2018/06/26 Javascript
Webstorm2016使用技巧(SVN插件使用)
2018/10/29 Javascript
解决vue-router 二级导航默认选中某一选项的问题
2019/11/01 Javascript
[44:10]2018DOTA2亚洲邀请赛 4.5 淘汰赛 EG vs VP 第一场
2018/04/06 DOTA
django认证系统实现自定义权限管理的方法
2018/07/16 Python
python使用numpy读取、保存txt数据的实例
2018/10/14 Python
Pytorch反向求导更新网络参数的方法
2019/08/17 Python
python输出带颜色字体实例方法
2019/09/01 Python
python实现小程序推送页面收录脚本
2020/04/20 Python
Pytorch环境搭建与基本语法
2020/06/03 Python
python实现批量转换图片为黑白
2020/06/16 Python
如何用用Python将地址标记在地图上
2021/02/07 Python
世界上最大的折扣香水店:FragranceNet.com
2016/10/26 全球购物
好药师网上药店:安全合法的网上药品零售药房
2017/02/15 全球购物
哄娃神器4moms商店:美国婴童用品品牌
2019/03/07 全球购物
你们项目是如何进行变更控制的
2015/08/26 面试题
项目经理岗位职责
2013/11/11 职场文书
补充协议书范本
2014/04/23 职场文书
员工合理化建议书
2014/05/19 职场文书
心理咨询承诺书
2014/05/20 职场文书
员工工作失职检讨书范文!
2019/07/03 职场文书
zabbix agent2 监控oracle数据库的方法
2021/05/13 Oracle
python迷宫问题深度优先遍历实例
2021/06/20 Python
2022年显卡天梯图(6月更新)
2022/06/17 数码科技