编程 Javascript

Node.js环境下编写爬虫爬取维基百科内容的实例分享

Posted in Javascript onJune 12, 2016

基本思路
思路一（origin:master）：从维基百科的某个分类（比如：航空母舰（key））页面开始，找出链接的title属性中包含key（航空母舰）的所有目标，加入到待抓取队列中。这样，抓一个页面的代码及其图片的同时，也获取这个网页上所有与key相关的其它网页的地址，采取一个类广度优先遍历的算法来完成此任务。
思路二（origin:cat）：按分类进行抓取。注意到，维基百科上，分类都以Category:开头，由于维基百科有很好的文档结构，很容易从任一个分类，开始，一直把其下的所有分类全都抓取下来。这个算法对分类页面，提取子分类，且并行抓取其下所有页面，速度快，可以把分类结构保存下来，但其实有很多的重复页面，不过这个可以后期写个脚本就能很容易的处理。

库的选择
开始想用jsdom，虽然感觉它功能强大，但也比较“重”，最要命的是说明文档不够好，只说了它的优势，没一个全面的说明。因此，换成cheerio，轻量级，功能比较全，至少文档一看就能有一个整体概念。其实做到后来，才发现根本不需要库，用正则表达式就能搞定一切！用库只是少写了一点正则而矣。

关键点
全局变量设定：

var regKey = ['航空母舰','航空母?','航母'];  //链接中若包含此中关键词，即为目标
var allKeys = [];              //链接的title，也是页面标识，避免重复抓取
var keys = ['Category:%E8%88%AA%E7%A9%BA%E6%AF%8D%E8%88%B0'];  //等待队列，起始页

图片下载
使用request库的流式操作，让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外，图片名字要重新设定，开始我取原名，不知道为什么，有的图明明存在，就是显示不出来；并且要把srcset属性清理掉，不然本面显示不出来。

$ = cheer.load(downHtml);
 var rsHtml = $.html();
 var imgs = $('#bodyContent .image');    //图片都由这个样式修饰
 for(img in imgs){
  if(typeof imgs[img].attribs === 'undefined' || typeof imgs[img].attribs.href === 'undefined')
   {continue;}  //结构为链接下的图片，链接不存在，跳过
  else
   {
    var picUrl = imgs[img].children[0].attribs.src;  //图片地址
    var dirs = picUrl.split('.');
    var filename = baseDir+uuid.v1()+'.'+dirs[dirs.length -1];  //重新命名

    request("https:"+picUrl).pipe(fs.createWriteStream('pages/'+filename));  //下载

    rsHtml = rsHtml.replace(picUrl,filename);  //换成本地路径
    // console.log(picUrl);
   }
 }

广度优先遍历
开始没能完全理解异步的概念，以循环方式来做，以为使用了Promise，就已经全转化为同步了，但其实只是能保证交给promise的操作会有序进行，并不能让这些操作与其它的操作有序化！如，下面的代码就是不正确的。

var keys = ['航空母舰'];
var key = keys.shift();
while(key){
 data.get({
  url:encodeURI(key),
  qs:null
 }).then(function(downHtml){
    ...
    keys.push(key);        //(1)
  }
 });
key = keys.shift();          //(2）
}

上面的操作看试很正常，但其实（2）会在（1）之间被运行！哪怎么办？
我使用递归来解决这个问题。如下示例代码：

var key = keys.shift();
(function doNext(key){
 data.get({
  url:key,
  qs:null
 }).then(function(downHtml){
  ...
  keys.push(href);
  ...
  key = keys.shift();
  if(key){
   doNext(key);
  }else{
   console.log('抓取任务顺利完成。')
  }
 })
})(key);

正则清理
使用正则表达式清理无用的页面代码，因为有很多模式需要处理，写了一个循环统一处理。

var regs = [/<link rel=\"stylesheet\" href=\"?[^\"]*\">/g,
  /<script>?[^<]*<\/script>/g,
 /<style>?[^<]*<\/style>/g,
 /<a ?[^>]*>/g,
 /<\/a>/g,
 /srcset=(\"?[^\"]*\")/g
 ]
 regs.forEach(function(rs){
  var mactches = rsHtml.match(rs);
  for (var i=0;i < mactches.length ; i++)
  {
   rsHtml = rsHtml.replace(mactches[i],mactches[i].indexOf('stylesheet')>-1?'<link rel="stylesheet" href="wiki'+(i+1)+'.css"':'');
  }
 })

运行效果
上维基中文是需要FQ的，试运行了一下，抓取航空母舰分类，运行过程中，发现了三百左右的相关链接（包括分类页面，这些页面我是只取有效链接，不下载），最终正确的下载了209个，手工测试了一些出错链接，发现都为无效链接，显示该词条还未建立，整个过程大概花了不到十五分钟，压缩后近三十M，感觉效果还不错。

源代码
https://github.com/zhoutk/wikiSpider
小结
到昨晚基本完成任务，思路一能够抓取内容比较准确的页面，而且页面不重复，但抓取效率不高，分类信息无法准确获得；思路二能够按维基百科的分类，自动抓取并分门别类的把文件存储到本地，效率高（实测，抓取【军舰】类，共抓取页面近六千个，费时五十来分钟，每分钟能抓取超过一百个页面），能准确的保存分类信息。
最大的收获在于深刻的理解了异步编程的整体流程控制。

Node.js环境下编写爬虫爬取维基百科内容的实例分享

- Author -

zhoutk

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Javascript 相关文章推荐

基于jquery的设置页面文本框只能输入数字的实现代码

Apr 19 Javascript

js控制web打印(局部打印)方法整理

May 29 Javascript

jquery中html、val与text三者属性取值的联系与区别介绍

Dec 29 Javascript

JS实现很酷的水波文字特效实例

Feb 26 Javascript

js实现浏览器倒计时跳转页面效果

Aug 12 Javascript

angular分页指令操作

Jan 09 Javascript

JS实现的JSON序列化操作简单示例

Jul 02 Javascript

vue router 配置路由的方法

Jul 26 Javascript

解决layui中的form表单与button的点击事件冲突问题

Aug 15 Javascript

详解React项目如何修改打包地址（编译输出文件地址）

Mar 21 Javascript

JS常用排序方法实例代码解析

Mar 03 Javascript

微信小程序实现聊天室功能

Jun 14 Javascript

JavaScript解八皇后问题的方法总结

Jun 12 #Javascript

jQuery遍历json的方法(推荐)

Jun 12 #Javascript

jQuery移动端图片上传组件

Jun 12 #Javascript

jQuery通过ajax请求php遍历json数组到table中的代码(推荐)

Jun 12 #Javascript

JavaScript中实现键值对应的字典与哈希表结构的示例

Jun 12 #Javascript

JavaScript中输出信息的方法(信息确认框-提示输入框-文档流输出)

Jun 12 #Javascript

JS中常用的输出方式(五种)

Jun 12 #Javascript

You might like

php array_walk() 数组函数

2011/07/12 PHP

php 判断网页是否是utf8编码的方法

2014/06/06 PHP

函数中使用require_once问题深入探讨优雅的配置文件定义方法推荐

2014/07/02 PHP

PHP面向对象详解（三）

2015/12/07 PHP

网页的分页下标生成代码（PHP后端方法）

2016/02/03 PHP

PHP-X系列教程之内置函数的使用示例

2017/10/16 PHP

测试你的JS的掌握程度的代码

2009/12/09 Javascript

基于jquery的跨域调用文件

2010/11/19 Javascript

jQuery的:parent选择器定义和用法

2014/07/01 Javascript

jquery对象和javascript对象即DOM对象相互转换

2014/08/07 Javascript

node.js中的fs.readFile方法使用说明

2014/12/15 Javascript

JS实现双击内容变为可编辑状态

2017/03/03 Javascript

javascript 封装Date日期类实例详解

2017/05/28 Javascript

Vuex利用state保存新闻数据实例

2017/06/28 Javascript

js实现鼠标移动到图片产生遮罩效果

2017/10/21 Javascript

微信小程序引入模块中wxml、wxss、js的方法示例

2019/08/09 Javascript

layer弹窗在键盘按回车将反复刷新的实现方法

2019/09/25 Javascript

微信小程序轮播图实现原理及优化详解

2019/09/29 Javascript

如何使用JavaScript实现无缝滚动自动播放轮播图效果

2020/08/20 Javascript

Js数组扁平化实现方法代码总汇

2020/11/11 Javascript

python写日志封装类实例

2015/06/28 Python

浅谈python字典多键值及重复键值的使用

2016/11/04 Python

详解python进行mp3格式判断

2016/12/23 Python

Python3下错误AttributeError: ‘dict’ object has no attribute’iteritems‘的分析与解决

2017/07/06 Python

pandas 两列时间相减换算为秒的方法

2018/04/20 Python

pandas.loc 选取指定列进行操作的实例

2018/05/18 Python

详解解决Python memory error的问题（四种解决方案）

2019/08/08 Python

在Ubuntu 20.04中安装Pycharm 2020.1的图文教程

2020/04/30 Python

python利用faker库批量生成测试数据

2020/10/15 Python

python list的index()和find()的实现

2020/11/16 Python

基于django和dropzone.js实现上传文件

2020/11/24 Python

Rossignol金鸡美国官网：始于1907年法国百年雪具品牌

2019/03/06 全球购物

英国在线发型和美容产品商店：Beauty Cutie

2019/04/27 全球购物

学校评语大全

2014/05/06 职场文书

三提三创主题教育活动查摆整改措施

2014/10/25 职场文书

小学二年级语文教学反思

2016/03/03 职场文书