NodeJS的url截取模块url-extract的使用实例


Posted in NodeJs onNovember 18, 2013

上次介绍了怎么利用NodeJS + PhantomJS进行截图,但由于对每次截图操作,都启用了一个PhantomJS进程,所以并发量上去后,效率堪忧,所以我们重写了所有代码,并将其独立成为一个模块,方便调用。
如何改进?控制线程数,以及单线程处理url数量。使用Standard Output & WebSocket 进行通讯。添加缓存机制,目前使用Javascript Object进行。对外提供简易的接口。

设计图

NodeJS的url截取模块url-extract的使用实例

 

依赖 & 安装

由于PhantomJS 1.9.0+才开始支持Websocket,所以我们先要确定在PATH中的PhantomJS是为1.9.0以上版本。在命令行键入:

$ phantomjs -v

如果能返回版本号1.9.x,则可以继续操作。如果版本过低,或者出现错误,请到PhantomJS官网下载最新版本。

如果你已经安装了Git,或者拥有Git Shell,那么在命令行键入:
$ npm install url-extract

进行安装。

一个简单的例子

比如我们要截取百度首页,那么可以这样:

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job); process.exit(); }); })();

下面是打印:

NodeJS的url截取模块url-extract的使用实例

其中,image属性就是截图相对于工作路径的地址。我们可以使用Job的getData接口来得到更清楚的数据,例如:

module.exports = (function () { "use strict" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('This is a snapshot example.'); console.log(job.getData()); process.exit(); }); })();

打印就变成了这样了:

NodeJS的url截取模块url-extract的使用实例

image表示截图相对于工作路径的地址,status表示状态是否正常,true代表正常,false代表截图失败。

更多例子请参见:https://github.com/miniflycn/url-extract/tree/master/examples

 

主要API

.snapshot

url快照

.snapshot(url, [callback]).snapshot(urls, [callback]).snapshot(url, [option]).snapshot(urls, [option])
url {String} 要截取的地址 urls {Array} 要截取的地址数组 callback {Function} 回调函数 option {Object} 可选参数 ┝ id {String} 自定义url的id,如果第一个参数是urls,此参数无效 ┝ image {String} 自定义截图的保存地址,如果第一个参数是urls,此参数无效 ┝ groupId {String} 定义一组url的groupId,用于返回时候辨认是哪一组url ┝ ignoreCache {Boolean} 是否忽略缓存 ┗ callback {Function} 回调函数

.extract

url信息抓取,并获取快照

.extract(url, [callback]).extract(urls, [callback]).extract(url, [option]).extract(urls, [option])

url {String} 要截取的地址

urls {Array} 要截取的地址数组

callback {Function} 回调函数

option {Object} 可选参数

┝ id {String} 自定义url的id,如果第一个参数是urls,此参数无效

┝ image {String} 自定义截图的保存地址,如果第一个参数是urls,此参数无效

┝ groupId {String} 定义一组url的groupId,用于返回时候辨认是哪一组url

┝ ignoreCache {Boolean} 是否忽略缓存

┗ callback {Function} 回调函数

Job(类)

每一个url对应一个job对象,url的相关信息由job对象存储。

Field

url {String} 链接地址content {Boolean} 是否抓取页面的title和description信息id {String} job的idgroupId {String} 一堆job的组idcache {Boolean} 是否开启缓存callback {Function} 回调函数image {String} 图片地址status {Boolean} job当前是否正常

Prototype

getData() 获取job的相关数据

 

全局配置

url-extract根目录中的config文件可以进行全局配置,默认如下:

module.exports = { wsPort: 3001, maxJob: 100, maxQueueJob: 400, cache: 'object', maxCache: 10000, workerNum: 0};
wsPort {Number} websocket占用的端口地址maxJob {Number} 每个PhantomJS线程可并发worker数maxQueueJob {Number} 最大等待工作数量,0表示不限制,超过该数量,任何工作都直接返回失败(即status = false)cache {String} 缓存实现,目前只有object实现maxCache {Number} 最大缓存链接数workerNum {Number} PhantomJS线程数,0表示和CPU数量相同

 

一个简单的服务例子

https://github.com/miniflycn/url-extract-server-example

注意,需要安装connect和url-extract:

$ npm install

如果你下载了网盘的文件,那么请安装connect:

$ npm install connect

然后键入:

$ node bin/server

打开:

http://localhost:3000

查看效果。

 

;
NodeJs 相关文章推荐
NodeJS学习笔记之Connect中间件应用实例
Jan 27 NodeJs
windows下安装nodejs及框架express
Aug 07 NodeJs
NodeJs——入门必看攻略
Jun 27 NodeJs
NodeJs的优势和适合开发的程序
Aug 14 NodeJs
Ajax异步文件上传与NodeJS express服务端处理
Apr 01 NodeJs
NodeJS实现微信公众号关注后自动回复功能
May 31 NodeJs
NodeJs搭建本地服务器之使用手机访问的实例讲解
May 12 NodeJs
利用nodeJs anywhere搭建本地服务器环境的方法
May 12 NodeJs
纯异步nodejs文件夹(目录)复制功能
Sep 03 NodeJs
nodejs如何在package.json中设置多条启动命令
Mar 16 NodeJs
用Nodejs实现在终端中炒股的实现
Oct 18 NodeJs
NodeJS url验证(url-valid)的使用方法
Nov 18 #NodeJs
NodeJS与Mysql的交互示例代码
Aug 18 #NodeJs
利用NodeJS的子进程(child_process)调用系统命令的方法分享
Jun 05 #NodeJs
将nodejs打包工具整合到鼠标右键的方法
May 11 #NodeJs
用nodejs写的一个简单项目打包工具
May 11 #NodeJs
nodejs教程 安装express及配置app.js文件的详细步骤
May 11 #NodeJs
nodejs中exports与module.exports的区别详细介绍
Jan 14 #NodeJs
You might like
php操作excel文件 基于phpexcel
2010/07/02 PHP
php中有关字符串的4个函数substr、strrchr、strstr、ereg介绍和使用例子
2014/04/24 PHP
PHP常量使用的几个需要注意的地方(谨慎使用PHP中的常量)
2014/09/12 PHP
PHP图像处理类库MagickWand用法实例分析
2015/05/21 PHP
Thinkphp微信公众号支付接口
2016/08/04 PHP
PHP上传Excel文件导入数据到MySQL数据库示例
2016/10/25 PHP
PHP进阶学习之类的自动加载机制原理分析
2019/06/18 PHP
JavaScript DOM 学习第五章 表单简介
2010/02/19 Javascript
JS实现切换标签页效果实例代码
2013/11/01 Javascript
文本域中换行符的替换示例
2014/03/04 Javascript
jQuery实现渐变弹出层和弹出菜单的方法
2015/02/20 Javascript
JavaScript动态加载样式表的方法
2015/03/21 Javascript
IE9+已经不对document.createElement向下兼容的解决方法
2015/09/14 Javascript
JavaScript驾驭网页-获取网页元素
2016/03/24 Javascript
Bootstrap 模态框(Modal)插件代码解析
2016/12/21 Javascript
jQuery实现切换隐藏与显示同时切换图标功能
2017/10/29 jQuery
mui上拉加载更多下拉刷新数据的封装过程
2017/11/03 Javascript
JavaScript解决浮点数计算不准确问题的方法分析
2018/07/09 Javascript
Vue开发之watch监听数组、对象、变量操作分析
2019/04/25 Javascript
详解Vue3中对VDOM的改进
2020/04/23 Javascript
vue数据更新UI不刷新显示的解决办法
2020/08/06 Javascript
vue使用element-ui实现表单验证
2020/12/13 Vue.js
浅谈对yield的初步理解
2017/05/29 Python
使用python itchat包爬取微信好友头像形成矩形头像集的方法
2019/02/21 Python
python二进制读写及特殊码同步实现详解
2019/10/11 Python
python selenium实现发送带附件的邮件代码实例
2019/12/10 Python
python 利用已有Ner模型进行数据清洗合并代码
2019/12/24 Python
解决Pycharm 运行后没有输出的问题
2021/02/05 Python
X/HTML5 和 XHTML2
2008/10/17 HTML / CSS
元旦获奖感言
2014/03/08 职场文书
公职人员索取回扣检举信
2014/04/04 职场文书
小学数学课题方案
2014/06/15 职场文书
春节超市活动方案
2014/08/14 职场文书
2015年学校远程教育工作总结
2015/07/20 职场文书
退伍军人感言
2015/08/01 职场文书
Python常用配置文件ini、json、yaml读写总结
2021/07/09 Python