浅谈Node.js爬虫之网页请求模块


Posted in Javascript onJanuary 11, 2018

本文介绍了Node.js爬虫之网页请求模块,分享给大家,具体如下:

注:如您下载最新的nodegrass版本,由于部分方法已经更新,本文的例子已经不再适应,详细请查看开源地址中的例子。

一、为什么我要写这样一个模块?

源于笔者想使用Node.js写一个爬虫,虽然Node.js官方API提供的请求远程资源的方法已经非常简便,具体参考

http://nodejs.org/api/http.html 其中对于Http的请求提供了,http.get(options, callback)和http.request(options, callback)两个方法,

看方法便知,get方法用于get方式的请求,而request方法提供更多的参数,例如其它请求方式,请求主机的端口等等。对于Https的请求于Http类似。一个最简单的例子:

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});

对于以上代码,我们无非就是想请求远程主机,得到响应信息,例如响应状态,响应头,响应主体内容。其中get方法的第二个参数是一个回调函数,我们异步的获取响应信息,然后,在该回调函数中,res对象又监听data,on方法中第二个参数又是一个回调,而你得到d(你请求到的响应信息)后,很可能在对它进行操作的时候再次引入回调,一层层下去,最后就晕了。。。对于异步方式的编程,对于一些习惯同步方式写代码的同学是非常纠结的,当然国内外已经对此提供了一些非常优秀的同步类库,例如老赵的Wind.js......好像有点扯远了。其实,我们调用get最终要得到的无非就是响应信息,而不关心res.on这样的监听过程,因为太懒惰。不想每次都res.on('data',func),于是诞生了今天我要介绍的nodegrass。

二、nodegrass请求资源,像Jquery的$.get(url,func)

一个最简单的例子:

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});

咋一看,和官方原来的get没啥区别,确实差不多=。=!只不过少了一层res.on('data',func)的事件监听回调而已。不管你信不信,反正我看上去感觉舒服多了,第二个参数同样是一个回调函数,其中的参数data是响应主体内容,status是响应状态,headers是响应头。得到响应内容,我们就可以对得到的资源提取任何我们感兴趣的信息啦。当然这个例子中,只是简单的打印的控制台而已。第三个参数是字符编码,目前Node.js不支持gbk,这里nodegrass内部引用了iconv-lite进行了处理,所以,如果你请求的网页编码是gbk的,例如百度。只需加上这个参数就行了。

那么对于https的请求呢?如果是官方api,你得引入https模块,但是请求的get方法等和http类似,于是nodegrass顺便把他们整合在一块了。看例子:

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});

nodegrass会根据url自动识别是http还是https,当然你的url必须得有,不能只写www.baidu.com/而需要http://www.baidu.com/。

对于post的请求,nodegrass提供了post方法,看例子:

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');

以上是新浪微博Auth2.0请求accessToken的一部分,其中使用nodegrass的post请求access_token的api。

post方法相比get方法多提供了headers请求头参数,options--post的数据,它们都是对象字面量的类型:

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };

三、利用nodegrass做代理服务器?……**

看例子:

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');

就这么简单,当然代理服务器还有复杂的多,这个不算是,但至少你访问本地8088端口,看到的是不是博客园的页面呢?

nodegrass的开源地址:https://github.com/scottkiss/nodegrass

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Javascript 相关文章推荐
extjs form textfield的隐藏方法
Dec 29 Javascript
javascript避免数字计算精度误差的方法详解
Mar 05 Javascript
点击button获取text内容并改变样式的js实现
Sep 09 Javascript
微信小程序商城项目之商品属性分类(4)
Apr 17 Javascript
详解vue mint-ui源码解析之loadmore组件
Oct 11 Javascript
初学者AngularJS的环境搭建过程
Oct 27 Javascript
jQuery选择器之基本选择器用法实例分析
Feb 19 jQuery
JS实现的简单tab切换功能完整示例
Jun 20 Javascript
vue.js购物车添加商品组件的方法
Sep 17 Javascript
layui use 定义js外部引用函数的方法
Sep 26 Javascript
微信小程序自定义tabBar在uni-app的适配详解
Sep 30 Javascript
对layui数据表格动态cols(字段)动态变化详解
Oct 25 Javascript
VueAwesomeSwiper在VUE中的使用以及遇到的一些问题
Jan 11 #Javascript
angular2中Http请求原理与用法详解
Jan 11 #Javascript
基于node下的http小爬虫的示例代码
Jan 11 #Javascript
JS脚本实现网页自动秒杀点击
Jan 11 #Javascript
Javascript网页抢红包外挂实现分享
Jan 11 #Javascript
JS写谷歌浏览器chrome的外挂实例
Jan 11 #Javascript
React 高阶组件入门介绍
Jan 11 #Javascript
You might like
PHP eval函数使用介绍
2013/12/08 PHP
PHP中替换键名的简易方法示例详解
2014/01/07 PHP
PHP处理bmp格式图片的方法分析
2017/07/04 PHP
PHP单元测试框架PHPUnit用法详解
2019/01/23 PHP
PHP中引用类型和值类型功能与用法示例
2019/02/26 PHP
javaScript checkbox 全选/反选及批量删除
2010/04/28 Javascript
深入理解Javascript动态方法调用与参数修改的问题
2013/12/10 Javascript
jQuery的live()方法对hover事件的处理示例
2014/02/27 Javascript
jquery显示隐藏input对象
2014/07/21 Javascript
Node.js开发之访问Redis数据库教程
2015/01/14 Javascript
jquery ajax 如何向jsp提交表单数据
2015/08/23 Javascript
js操作table元素实现表格行列新增、删除技巧总结
2015/11/18 Javascript
学习使用bootstrap基本控件(table、form、button)
2016/04/12 Javascript
深入理解jquery中的each用法
2016/12/14 Javascript
js中小数向上取整数,向下取整数,四舍五入取整数的实现(必看篇)
2017/02/13 Javascript
javascript中replace使用方法总结
2017/03/01 Javascript
JavaScript高阶函数_动力节点Java学院整理
2017/06/28 Javascript
vue params、query传参使用详解
2017/09/12 Javascript
vue中的计算属性的使用和vue实例的方法示例
2017/12/04 Javascript
解决vue中使用Axios调用接口时出现的ie数据处理问题
2018/08/13 Javascript
vue中当图片地址无效的时候,显示默认图片的方法
2018/09/18 Javascript
this在vue和小程序中的使用详解
2019/01/28 Javascript
Flutter部件内部状态管理小结之实现Vue的v-model功能
2019/06/11 Javascript
微信小程序基础教程之worker线程的使用方法
2019/07/15 Javascript
Python中用Spark模块的使用教程
2015/04/13 Python
python中numpy的矩阵、多维数组的用法
2018/02/05 Python
python如何通过实例方法名字调用方法
2018/03/21 Python
python的一些加密方法及python 加密模块
2019/07/11 Python
荷兰家电购物网站:Expert.nl
2020/01/18 全球购物
优秀研究生自我鉴定
2013/12/04 职场文书
小学新教师培训方案
2014/02/03 职场文书
本科生自荐信
2014/06/18 职场文书
小学家长学校培训材料
2014/08/24 职场文书
2014领导班子四风剖析对照检查材料思想汇报
2014/09/20 职场文书
民政局副局长民主生活会个人整改措施
2014/10/04 职场文书
话题作文之关于呼唤
2019/11/29 职场文书