Node.js编写爬虫的基本思路及抓取百度图片的实例分享


Posted in Javascript onMarch 12, 2016

其实写爬虫的思路十分简单:

  • 按照一定的规律发送 HTTP 请求获得页面 HTML 源码(必要时需要加上一定的 HTTP 头信息,比如 cookie 或 referer 之类)
  • 利用正则匹配或第三方模块解析 HTML 代码,提取有效数据
  • 将数据持久化到数据库中

但是真正写起这个爬虫来,我还是遇到了很多的问题(和自己的基础不扎实也有很大的关系,node.js 并没有怎么认真的学过)。主要还是 node.js 的异步和回调知识没有完全掌握,导致在写代码的过程中走了很多弯路。

模块化

模块化对于 node.js 程序是至关重要的,不能像原来写 PHP 那样所有的代码都扔到一个文件里(当然这只是我个人的恶习),所以一开始就要分析这个爬虫需要实现的功能,并大致的划分了三个模块。

主程序,调用爬虫模块和持久化模块实现完整的爬虫功能
爬虫模块,根据传来的数据发送请求,解析 HTML 并提取有用数据,返回一个对象
持久化模块,接受一个对象,将其中的内容储存到数据库中
模块化也带来了困扰了我一个下午的问题:模块之间的异步调用导致数据错误。其实我至今都不太明白问题到底出在哪儿,鉴于脚本语言不那么方便的调试功能,暂时还没有深入研究。

另外一点需要注意的是,模块化时尽量慎用全局对象来储存数据,因为可能你这个模块的一个功能还没有结束,这个全局变量已经被修改了。

Control Flow

这个东西很难翻译,直译叫控制流(吗)。众所周知,node.js 的核心思想就是异步,但是异步多了就会产生好几层嵌套,代码实在难看。这个时候,你需要借助一些 Control Flow 模块来重新整理你的逻辑。在这里就要推荐开发社区十分活跃,用起来也很顺手的 async.js(https://github.com/caolan/async/)。

async 提供了很多实用的方法,我在写爬虫时主要用到了

  • async.eachSeries(arr, fn, callback)  依次把 arr 中的每一个元素传给 fn,若 fn 回调没有返回错误对象就继续传下一个,否则把错误对象传给 callback,循环结束
  • async.parallel(fn[, fn] , callback)  当所有的 fn 都执行完成后执行 callback

这些控制流方法给爬虫的开发工作带来了很大的方便。考虑这么一个应用场景,你需要把若干条数据插入数据库(属于同一个学生),你需要在所有数据都插入完成后才能返回结果,那么如何保证所有的插入操作都结束了呢?只能是层层回调保证,如果用 async.parallel 就方便多了。

这里再多提一句,本来保证所有的插入都完成这个操作可以在 SQL 层实现,即 transaction,但是 node-mysql 截止我使用的时候还是没有很好的支持 transaction,所以只有自己手动用代码保证了。

解析 HTML

在解析过程中也遇到一些问题,这里一并记录下来。

最基本的发送 HTTP 请求获得 HTML 代码,使用 node 自带的 http.request 功能即可。如果是爬简单的内容,比如获得某个指定 id 元素中的内容(常见于抓去商品价格),那么正则足以完成任务。但是对于复杂的页面,尤其是数据项较多的页面,使用 DOM 会更加方便高效。

而 node.js 最好的 DOM 实现非 cheerio(https://github.com/MatthewMueller/cheerio) 莫属了。其实 cheerio 应该算是 jQuery 的一个针对 DOM 操作优化和精简的子集,包含了 DOM 操作的大部分内容,去除了其它不必要的内容。使用 cheerio 你就可以像用普通 jQuery 选择器那样选择你需要的内容。

下载图片
在爬数据时,我们可能还需要下载图片。其实下载图片的方式和普通的网页没有太大的区别,但是有一点让我吃了苦头。

注意下面代码中言辞激烈的注释,那就是我年轻时犯下的错误……

var req = http.request(options, function(res){

  //初始化数据!!!
  var binImage = '';

  res.setEncoding('binary');
  res.on('data', function(chunk){
   binImage += chunk;
  });

  res.on('end', function(){

   if (!binImage) {
    console.log('image data is null');
    return null;
   }

   fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){
    if (err) {
     console.log('image writing error:' + err.message);
     return null;
    }
    else{
     console.log('image ' + filename + ' saved');
     return filename;
    }
   });
  });

  res.on('error', function(e){
   console.log('image downloading response error:' + e.message);
   return null;
  });
 });

 req.end();

GBK 转码
另外一个值得说明的问题就是 node.js 爬虫在爬 GBK 编码内容时转码的问题,其实这个问题很好解决,但是新手可能会绕弯路。这里就把源码全部奉上:

var req = http.request(options, function(res) {
  res.setEncoding('binary');
  res.on('data', function (chunk) {
  html += chunk;
  });

  res.on('end', function(){
  //转换编码
  html = iconv.decode(html, 'gbk');
  });
 });

 req.end();

这里我使用的转码库是 iconv-lite(https://github.com/ashtuchkin/iconv-lite),完美支持 GBK 和 GB2312 等双字节编码。

实例:爬虫批量下载百度图片

var fs = require('fs'), 
 path = require('path'), 
 util = require('util'), // 以上为Nodejs自带依赖包 
 request = require('request'); // 需要npm install的包 
 
// main函数,使用 node main执行即可 
patchPreImg(); 
 
// 批量处理图片 
function patchPreImg() { 
 var tag1 = '摄影', tag2 = '国家地理', 
  url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=', 
  url = util.format(url, 0, tag1, tag2), 
  url = encodeURI(url), 
  dir = 'D:/downloads/images/', 
  dir = path.join(dir, tag1, tag2), 
  dir = mkdirSync(dir); 
 
 request(url, function(error, response, html) { 
  var data = JSON.parse(html); 
  if (data && Array.isArray(data.imgs)) { 
   var imgs = data.imgs; 
   imgs.forEach(function(img) { 
    if (Object.getOwnPropertyNames(img).length > 0) { 
     var desc = img.desc || ((img.owner && img.owner.userName) + img.column); 
     desc += '(' + img.id + ')'; 
     var downloadUrl = img.downloadUrl || img.objUrl; 
     downloadImg(downloadUrl, dir, desc); 
    } 
   }); 
  } 
 }); 
} 
 
// 循环创建目录 
function mkdirSync(dir) { 
 var parts = dir.split(path.sep); 
 for (var i = 1; i <= parts.length; i++) { 
  dir = path.join.apply(null, parts.slice(0, i)); 
  fs.existsSync(dir) || fs.mkdirSync(dir); 
 } 
 return dir; 
} 
 
var index = 1; 
// 开始下载图片,并log统计日志 
function downloadImg(url, dir, desc) { 
 var fileType = 'jpg'; 
 if (url.match(/\.(\w+)$/)) fileType = RegExp.$1; 
 desc += '.' + fileType; 
 var options = { 
  url: url, 
  headers: { 
   Host: 'f.hiphotos.baidu.com', 
   Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;' 
  } 
 }; 
 var startTime = new Date().getTime(); 
 request(options) 
  .on('response', function() { 
   var endTime = new Date().getTime(); 
   console.log('Downloading...%s.. %s, 耗时: %ss', index++, desc, (endTime - startTime) / 1000); 
  }) 
  .pipe(fs.createWriteStream(path.join(dir, desc))); 
}
Javascript 相关文章推荐
动态加载图片路径 保持JavaScript控件的相对独立性
Sep 03 Javascript
extjs grid设置某列背景颜色和字体颜色的实现方法
Sep 06 Javascript
js中判断文本框是否为空的两种方法
Jul 31 Javascript
IE6 hack for js 集锦
Sep 23 Javascript
Bootstrap表格和栅格分页实例详解
May 20 Javascript
JS基于构造函数实现的菜单滑动显隐效果【测试可用】
Jun 21 Javascript
关于js原型的面试题讲解
Sep 25 Javascript
vue日期组件 支持vue1.0和2.0
Jan 09 Javascript
Vue.js实现表格动态增加删除的方法(附源码下载)
Jan 20 Javascript
JS条形码(一维码)插件JsBarcode用法详解【编码类型、参数、属性】
Apr 19 Javascript
js实现html滑动图片拼图验证
Jun 24 Javascript
JS实现扫雷项目总结
May 19 Javascript
JavaScript中循环遍历Array与Map的方法小结
Mar 12 #Javascript
Node.js的Express框架使用上手指南
Mar 12 #Javascript
Node.js项目中调用JavaScript的EJS模板库的方法
Mar 11 #Javascript
JavaScript操作HTML DOM节点的基础教程
Mar 11 #Javascript
举例说明JavaScript中的实例对象与原型对象
Mar 11 #Javascript
JavaScript中setTimeout和setInterval函数的传参及调用
Mar 11 #Javascript
原生JavaScript制作微博发布面板效果
Mar 11 #Javascript
You might like
ajax缓存问题解决途径
2006/12/06 PHP
基于php-fpm的配置详解
2013/06/03 PHP
php实现评论回复删除功能
2017/05/23 PHP
分析php://output和php://stdout的区别
2018/05/06 PHP
php-fpm超时时间设置request_terminate_timeout资源问题分析
2019/09/27 PHP
php use和include区别总结
2019/10/13 PHP
IE8 中使用加速器(Activities)
2010/05/14 Javascript
JQuery的ajax获取数据后的处理总结(html,xml,json)
2010/07/14 Javascript
jQuery学习笔记之jQuery的动画
2010/12/22 Javascript
jquery解析xml字符串示例分享
2014/03/25 Javascript
JS实现模拟百度搜索“2012世界末日”网页地震撕裂效果代码
2015/10/31 Javascript
[原创]JQuery 在表单提交之前修改 提交的值
2016/04/14 Javascript
Google 地图获取API Key详细教程
2016/08/06 Javascript
微信小程序 css使用技巧总结
2017/01/09 Javascript
用 js 的 selection range 操作选择区域内容和图片
2017/04/18 Javascript
微信小程序request出现400的问题解决办法
2017/05/23 Javascript
inner join 内联与left join 左联的实例代码
2017/09/18 Javascript
layer实现关闭弹出层刷新父界面功能详解
2017/11/15 Javascript
微信小程序tabBar模板用法实例分析【附demo源码下载】
2017/11/28 Javascript
JS实现省市县三级下拉联动
2020/04/10 Javascript
浅谈Vue开发人员的7个最好的VSCode扩展
2021/01/20 Vue.js
[00:36]DOTA2勇士令状莱恩声望物品——冥晶之厄展示
2018/05/25 DOTA
python实现二维码扫码自动登录淘宝
2016/12/27 Python
tensorflow实现简单逻辑回归
2018/09/07 Python
Python基于Socket实现简单聊天室
2020/02/17 Python
Python结合Window计划任务监测邮件的示例代码
2020/08/05 Python
Python使用Pygame绘制时钟
2020/11/29 Python
基于HTML5的WebGL经典3D虚拟机房漫游动画
2017/11/15 HTML / CSS
澳大利亚百货商店中销量第一的商务衬衫品牌:Van Heusen
2018/07/26 全球购物
如何在Oracle中查看各个表、表空间占用空间的大小
2015/10/31 面试题
50道外企软件测试面试题
2014/08/18 面试题
工作睡觉检讨书
2014/02/25 职场文书
先进个人评语大全
2015/01/04 职场文书
2015年政务公开工作总结
2015/05/19 职场文书
java后台调用接口及处理跨域问题的解决
2022/03/24 Java/Android
Spring Boot 实现 WebSocket
2022/04/30 Java/Android