NodeJS的url截取模块url-extract的使用实例


Posted in NodeJs onNovember 18, 2013

上次介绍了怎么利用NodeJS + PhantomJS进行截图,但由于对每次截图操作,都启用了一个PhantomJS进程,所以并发量上去后,效率堪忧,所以我们重写了所有代码,并将其独立成为一个模块,方便调用。
如何改进?控制线程数,以及单线程处理url数量。使用Standard Output & WebSocket 进行通讯。添加缓存机制,目前使用Javascript Object进行。对外提供简易的接口。

设计图

NodeJS的url截取模块url-extract的使用实例

 

依赖 & 安装

由于PhantomJS 1.9.0+才开始支持Websocket,所以我们先要确定在PATH中的PhantomJS是为1.9.0以上版本。在命令行键入:

$ phantomjs -v

如果能返回版本号1.9.x,则可以继续操作。如果版本过低,或者出现错误,请到PhantomJS官网下载最新版本。

如果你已经安装了Git,或者拥有Git Shell,那么在命令行键入:
$ npm install url-extract

进行安装。

一个简单的例子

比如我们要截取百度首页,那么可以这样:

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job); process.exit(); }); })();

下面是打印:

NodeJS的url截取模块url-extract的使用实例

其中,image属性就是截图相对于工作路径的地址。我们可以使用Job的getData接口来得到更清楚的数据,例如:

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job.getData()); process.exit(); }); })();

打印就变成了这样了:

NodeJS的url截取模块url-extract的使用实例

image表示截图相对于工作路径的地址,status表示状态是否正常,true代表正常,false代表截图失败。

更多例子请参见:https://github.com/miniflycn/url-extract/tree/master/examples

 

主要API

.snapshot

url快照

.snapshot(url, [callback]).snapshot(urls, [callback]).snapshot(url, [option]).snapshot(urls, [option])
url {String} 要截取的地址 urls {Array} 要截取的地址数组 callback {Function} 回调函数 option {Object} 可选参数 ┝ id {String} 自定义url的id,如果第一个参数是urls,此参数无效 ┝ image {String} 自定义截图的保存地址,如果第一个参数是urls,此参数无效 ┝ groupId {String} 定义一组url的groupId,用于返回时候辨认是哪一组url ┝ ignoreCache {Boolean} 是否忽略缓存 ┗ callback {Function} 回调函数

.extract

url信息抓取,并获取快照

.extract(url, [callback]).extract(urls, [callback]).extract(url, [option]).extract(urls, [option])

url {String} 要截取的地址

urls {Array} 要截取的地址数组

callback {Function} 回调函数

option {Object} 可选参数

┝ id {String} 自定义url的id,如果第一个参数是urls,此参数无效

┝ image {String} 自定义截图的保存地址,如果第一个参数是urls,此参数无效

┝ groupId {String} 定义一组url的groupId,用于返回时候辨认是哪一组url

┝ ignoreCache {Boolean} 是否忽略缓存

┗ callback {Function} 回调函数

Job(类)

每一个url对应一个job对象,url的相关信息由job对象存储。

Field

url {String} 链接地址content {Boolean} 是否抓取页面的title和description信息id {String} job的idgroupId {String} 一堆job的组idcache {Boolean} 是否开启缓存callback {Function} 回调函数image {String} 图片地址status {Boolean} job当前是否正常

Prototype

getData() 获取job的相关数据

 

全局配置

url-extract根目录中的config文件可以进行全局配置,默认如下:

module.exports = { wsPort: 3001, maxJob: 100, maxQueueJob: 400, cache: 'object', maxCache: 10000, workerNum: 0};
wsPort {Number} websocket占用的端口地址maxJob {Number} 每个PhantomJS线程可并发worker数maxQueueJob {Number} 最大等待工作数量,0表示不限制,超过该数量,任何工作都直接返回失败(即status = false)cache {String} 缓存实现,目前只有object实现maxCache {Number} 最大缓存链接数workerNum {Number} PhantomJS线程数,0表示和CPU数量相同

 

一个简单的服务例子

https://github.com/miniflycn/url-extract-server-example

注意,需要安装connect和url-extract:

$ npm install

如果你下载了网盘的文件,那么请安装connect:

$ npm install connect

然后键入:

$ node bin/server

打开:

http://localhost:3000

查看效果。

 

;
NodeJs 相关文章推荐
NodeJS与Mysql的交互示例代码
Aug 18 NodeJs
基于 Docker 开发 NodeJS 应用
Jul 30 NodeJs
轻松创建nodejs服务器(3):代码模块化
Dec 18 NodeJs
nodejs连接mongodb数据库实现增删改查
Dec 01 NodeJs
详解nodeJS之二进制buffer对象
Jun 03 NodeJs
nodejs中sleep功能实现暂停几秒的方法
Jul 12 NodeJs
ubuntu编译nodejs所需的软件并安装
Sep 12 NodeJs
nodejs实现大文件(在线视频)的读取
Oct 16 NodeJs
nodejs 最新版安装npm 的使用详解
Jan 18 NodeJs
Nodejs下使用gm圆形裁剪并合成图片的示例
Feb 22 NodeJs
nodejs二进制与Buffer的介绍与使用
Jul 11 NodeJs
node快速搭建后台的实现步骤
Feb 18 NodeJs
NodeJS url验证(url-valid)的使用方法
Nov 18 #NodeJs
NodeJS与Mysql的交互示例代码
Aug 18 #NodeJs
利用NodeJS的子进程(child_process)调用系统命令的方法分享
Jun 05 #NodeJs
将nodejs打包工具整合到鼠标右键的方法
May 11 #NodeJs
用nodejs写的一个简单项目打包工具
May 11 #NodeJs
nodejs教程 安装express及配置app.js文件的详细步骤
May 11 #NodeJs
nodejs中exports与module.exports的区别详细介绍
Jan 14 #NodeJs
You might like
PHP初学者头疼问题总结
2006/10/09 PHP
PHP模块 Memcached功能多于Memcache
2011/06/14 PHP
php单例模式实现方法分析
2015/03/14 PHP
WordPress导航菜单的滚动和淡入淡出效果的实现要点
2015/12/14 PHP
PHP响应post请求上传文件的方法
2015/12/17 PHP
javascript客户端解决方案 缓存提供程序
2010/07/14 Javascript
javascript面向对象之二 命名空间
2011/02/08 Javascript
基于Jquery制作的幻灯片图集效果打包下载
2011/02/12 Javascript
javascript数组的使用
2013/03/28 Javascript
设置jsf的选择框h:selectOneMenu为不可编辑状态的方法
2014/01/07 Javascript
js简单的弹出框有关闭按钮
2014/05/05 Javascript
JavaScript支持的最大递归调用次数分析
2014/06/24 Javascript
jQuery事件绑定和委托实例
2014/11/25 Javascript
js通过iframe加载外部网页的实现代码
2015/04/05 Javascript
Js与Jq 获取页面元素值的方法和差异对比
2015/04/30 Javascript
JavaScript中利用Array和Object实现Map的方法
2015/07/27 Javascript
jQuery带时间的日期控件代码分享
2015/08/26 Javascript
jsTree事件和交互以及插件plugins详解
2017/08/29 Javascript
Vue header组件开发详解
2018/01/26 Javascript
JavaScript设计模式之责任链模式实例分析
2019/01/16 Javascript
ES6 对象的新功能与解构赋值介绍
2019/02/05 Javascript
使用post方法实现json往返传输数据的方法
2019/03/30 Javascript
[03:26]《DAC最前线》之EG经理自述DOTA2经历
2015/02/02 DOTA
python学生信息管理系统(完整版)
2020/04/05 Python
Python爬虫实现爬取百度百科词条功能实例
2019/04/05 Python
Python图像处理库PIL的ImageFont模块使用介绍
2020/02/26 Python
解决Pyinstaller打包软件失败的一个坑
2021/03/04 Python
高二化学教学反思
2014/01/30 职场文书
房产买卖委托公证书
2014/04/04 职场文书
爱我中华教学反思
2014/04/28 职场文书
纪检干部个人对照检查材料
2014/09/23 职场文书
辞职信怎么写
2015/02/27 职场文书
尼克胡哲观后感
2015/06/08 职场文书
大学生村官入党自传
2015/06/26 职场文书
基于Redis位图实现用户签到功能
2021/05/08 Redis
Python如何使用循环结构和分支结构
2022/04/13 Python