编程 Javascript

基于node下的http小爬虫的示例代码

Posted in Javascript onJanuary 11, 2018

每时每刻不管你睡了还是没睡，互联网都会有海量的数据来来往往，有客服端到服务端，有服务端到服务端。http的get和request完成的角色即为数据的获取及提交,接下来我们动手写一个简单的小爬虫来爬爬菜鸟教程中关于node的章节的课程界面。

爬取Node.js 教程首页的所有数据

建立node-http.js,其中代码如下，代码中有详细的的注释，自行理解了哈

var http=require('http');//获取http模块
var url='http://www.runoob.com/nodejs/nodejs-tutorial.html';//定义node官网地址变量

http.get(url,function(res){
  var html='';

  // 这里将会触发data事件，不断触发不断跟新html直至完毕
  res.on('data',function(data){
    html +=data
  })

  // 当数据获取完成将会触发end事件，这里将会打印初node官网的html
  res.on('end',function(){
    console.log(html)
  })
}).on('error',function(){
  console.log('获取node官网相关数据出错')
})

终端执行结果中发现这个页面的html全部被爬下来了

G:\node\node-http> node node-http.js
<!Doctype html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta property="qc:admins" content="465267610762567726375" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<title>Node.js 教程 | 菜鸟教程</title>
<link rel='dns-prefetch' href='//s.w.org' />
<link rel="canonical" href="http://www.runoob.com/nodejs/nodejs-tutorial.html" />
<meta name="keywords" content="Node.js 教程,node,Node.js,nodejs">
<meta name="description" content="Node.js 教程  简单的说 Node.js 就是运行在服务端的 JavaScript。 Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台
。 Node.js是一个事件驱动I/O服务端JavaScript环境，基于Google的V8引擎，V8引擎执行Javascript的速度非常快，性能非常好。  谁适合阅读本教程？ 如果你是一个前端程序员，你不懂得像PHP、Python或Ruby等动态编程语言，..">
<link rel="shortcut icon" href="//static.runoob.com/images/favicon.ico" rel="external nofollow" rel="external nofollow" mce_href="//static.runoob.com/images/favicon.ico" rel="external nofollow" rel="external nofollow" type="image/x-icon">
<link rel="stylesheet" href="/wp-content/themes/runoob/style.css?v=1.141" rel="external nofollow" type="text/css" media="all" />
<link rel="stylesheet" href="//cdn.bootcss.com/font-awesome/4.7.0/css/font-awesome.min.css" rel="external nofollow" media="all" />
<!--[if gte IE 9]><!-->
。。。。。。。。。。
这里只展示部分不然你半天看不到头

当然爬个HTML对于我们来说没啥用，现在我们要做些过滤，比如这个node教程中我想知道课程目录有哪些，这样可以选择感兴趣的去看看学学。直接上代码吧还是：

不过在此之前我们需要下载cheerio模块（cheerio是nodejs的抓取页面模块，为服务器特别定制的，快速、灵活、实施的jQuery核心实现。适合各种Web爬虫程序。）具体详细介绍你们可以自行去搜索了解，cheerio的用跟jquery的用法非常类似，所以不用担心上手繁琐。

PS G:\node\node-http> npm install cheerio

建立node-http-more.js,其中代码如下：

var http=require('http');//获取http模块
var cheerio=require('cheerio');//引入cheerio模块
var url='http://www.runoob.com/nodejs/nodejs-tutorial.html';//定义node官网地址变量
// filer node chapter
function filerNodeChapter(html){
  // 将爬取得HTML装载起来
  var $=cheerio.load(html);
  // 拿到左侧边栏的每个目录
  var nodeChapter=$('#leftcolumn a');
  //这里我希望我能获取的到的最终数据格式这个样子的,如此我们能知道每个目录的地址及标题
  /**
   * [{id:,title:}]
   */
  var chapterData=[];
  nodeChapter.each(function(item){
    // 获取每项的地址及标题
    var id=$(this).attr('href');
    var title=$(this).text();
    chapterData.push({
      id:id,
      title:title
    })
  })

  return chapterData;

}

//获取每个数据
function getChapterData(nodeChapter){
  nodeChapter.forEach(function(item){
    console.log(' 【 '+item.id+' 】'+item.title+'\n')
  });
}

http.get(url,function(res){
  var html='';

  // 这里将会触发data事件，不断触发不断跟新html直至完毕
  res.on('data',function(data){
    html +=data
  })

  // 当数据获取完成将会触发end事件，这里将会打印初node官网的html
  res.on('end',function(){
    //console.log(html)
    // 过滤出node.js的课程目录
    var nodeChapter= filerNodeChapter(html);

    //循环打印所获取的数据
    getChapterData(nodeChapter)
  })
}).on('error',function(){
  console.log('获取node官网相关数据出错')
})

终端执行结果及打印出课程目录

G:\node\node-http> node node-http-more.js
 【 /nodejs/nodejs-tutorial.html 】
Node.js 教程

 【 /nodejs/nodejs-install-setup.html 】
Node.js 安装配置

 【 /nodejs/nodejs-http-server.html 】
Node.js 创建第一个应用

 【 nodejs-npm.html 】 NPM 使用介绍

 【 nodejs-repl.html 】 Node.js REPL

 【 nodejs-callback.html 】 Node.js 回调函数

 【 nodejs-event-loop.html 】 Node.js 事件循环

 【 nodejs-event.html 】 Node.js EventEmitter

 【 nodejs-buffer.html 】 Node.js Buffer

 【 nodejs-stream.html 】 Node.js Stream

 【 /nodejs/nodejs-module-system.html 】
Node.js 模块系统
。。。。。。。。。。。
这里就不全部给出，你可以自己尝试着运行操作查看所有结果

到此一个简单的爬虫就写完了，赶紧自己动手试试吧，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

基于node下的http小爬虫的示例代码

- Author -

风慕李

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Javascript 相关文章推荐

关于javascript中的parseInt使用技巧

Sep 03 Javascript

测试JavaScript字符串处理性能的代码

Dec 07 Javascript

Node.js入门教程：在windows和Linux上安装配置Node.js图文教程

Aug 14 Javascript

javascript实现随时变化着的背景颜色

Apr 02 Javascript

javascript实现的左右无缝滚动效果

Sep 19 Javascript

JavaScript中的工厂函数(推荐)

Mar 08 Javascript

5分钟打造简易高效的webpack常用配置

Jul 04 Javascript

vue-router相关基础知识及工作原理

Mar 16 Javascript

vue中利用simplemde实现markdown编辑器（增加图片上传功能）

Apr 29 Javascript

layui 监听select选择获取当前select的ID名称方法

Sep 24 Javascript

基于JS实现table导出Excel并保留样式

May 19 Javascript

js+audio实现音乐播放器

Sep 13 Javascript

JS脚本实现网页自动秒杀点击

Jan 11 #Javascript

Javascript网页抢红包外挂实现分享

Jan 11 #Javascript

JS写谷歌浏览器chrome的外挂实例

Jan 11 #Javascript

React 高阶组件入门介绍

Jan 11 #Javascript

基于react后端渲染模板引擎noox发布使用

Jan 11 #Javascript

Router解决跨模块下的页面跳转示例

Jan 11 #Javascript

vuex 使用文档小结篇

Jan 11 #Javascript

You might like

php预定义常量

2006/12/25 PHP

php数字游戏计算24算法

2012/06/10 PHP

PHP中的按位与和按位或操作示例

2014/01/27 PHP

简单介绍win7下搭建apache+php+mysql开发环境

2015/08/06 PHP

PHP延迟静态绑定使用方法实例解析

2020/09/05 PHP

jquery imgareaselect 使用利用js与程序结合实现图片剪切

2009/07/30 Javascript

js获取字符串最后一位方法汇总

2014/11/13 Javascript

javascript实现俄罗斯方块游戏的思路和方法

2015/04/27 Javascript

在JavaScript中处理字符串之fontcolor()方法的使用

2015/06/08 Javascript

angularJS 如何读写缓冲的方法(推荐)

2016/08/06 Javascript

详解Angular2组件之间如何通信

2017/06/22 Javascript

js实现延迟加载的几种方法详解

2019/01/19 Javascript

从0搭建vue-cli4脚手架

2020/06/17 Javascript

Vue 实现一个简单的鼠标拖拽滚动效果插件

2020/12/10 Vue.js

jquery实现鼠标悬浮弹出气泡提示框

2020/12/23 jQuery

[01:03]悬念揭晓 11月26日DOTA2完美盛典不见不散

2017/11/23 DOTA

Python模块搜索概念介绍及模块安装方法介绍

2015/06/03 Python

python进阶_浅谈面向对象进阶

2017/08/17 Python

动态规划之矩阵连乘问题Python实现方法

2017/11/27 Python

Python+OpenCV目标跟踪实现基本的运动检测

2018/07/10 Python

python调用百度语音识别api

2018/08/30 Python

树莓派3 搭建 django 服务器的实例

2019/08/29 Python

python multiprocessing多进程变量共享与加锁的实现

2019/10/02 Python

详解Pymongo常用查询方法总结

2021/01/29 Python

Python基于argparse与ConfigParser库进行入参解析与ini parser

2021/02/02 Python

Python爬虫爬取微博热搜保存为 Markdown 文件的源码

2021/02/22 Python

纽约JewelryAffairs珠宝店：精细金银时尚首饰

2017/02/05 全球购物

Everlast官网：拳击、综合格斗和健身相关的体育用品

2020/08/03 全球购物

Lucene推荐的分页方式是什么？

2015/12/07 面试题

设置器与访问器的定义以及各自特点

2016/01/08 面试题

室内设计实习自我鉴定

2013/09/25 职场文书

大学生职业规划前言模板

2013/12/27 职场文书

旷课检讨书2000字

2014/01/14 职场文书

中年人生感言

2014/02/04 职场文书

群众路线党课主持词

2014/04/01 职场文书

党员反对四风思想汇报范文

2014/10/25 职场文书