node.js爬取中关村的在线电瓶车信息


Posted in Javascript onNovember 13, 2018

背景

学习nodejs已经有段时间,网上很多nodejs爬虫的文章,所以着手练习写一段,最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。

简介

该demo采用node.js作为爬虫,为方便,有些地方使用es6语法,如有不懂,欢迎咨询?

步骤

第一步,引入需要的库

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一个类似浏览器端的jQuery,用来解析HTML的
// fetch 用来发送请求

第二步,设置初始的爬取的入口(我身处杭州,所以地区选了杭州的?)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每个a标签下是相对路径,故需要一个根地址来拼接,如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url,之所以用set,是为了防止有相同的而重复爬去
var urls = new Set()
// 存储所有数据
var data = []

至此,我们的准备部分结束了?,接下来,开始表演了

分析网页,思考爬取的方式

node.js爬取中关村的在线电瓶车信息

每行4款,每页是48款,一共16页

思路:

  • 每次获取当前页48个链接,并点进去之后,拿到该电瓶车的名称和价格(其他信息获取方式一样,自行改就好?)
  • 第一页的全部完成之后,翻到下一页,继续爬,直到最后一页结束

首先我们定义一个函数如下

// 这是得到每个页面的48个链接,并开始发送请求

function ad(arg){
// 参数 arg 先不管
// 本地化一下需要爬取的链接
let url2 = arg || url;
// 请求第一页该网页,拿到数据之后,复制给 app
var app = await fetch(url2).then(res=>res.text())
// 然后假装用jQuery解析了
var $ = cheerio.load(app)
// 获取当前页所有电瓶车的a标签
var ele = $("#J_PicMode a.pic")
// 存放已经爬取过的url,防止重复爬取
var old_urls = []
var urlapp = []
//拿到所有a标签地址之后,存在数组里面,等会儿要开始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一块丢给promise处理
urlapp = await Promise.all(old_urls)
// 处理完成之后,循环加入jQuery?
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此,一页的数据就爬完了
// console.log(data);

// 然后开始爬取下一页
var nextURL = $(".next").attr('href')
// 判断当前页是不是最后一页
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 获取下一页的标签,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代码如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Javascript 相关文章推荐
Mootools 1.2教程(21)——类(二)
Sep 15 Javascript
jQuery实现复选框全选/取消全选/反选及获得选择的值
Jun 12 Javascript
推荐9款炫酷的基于jquery的页面特效
Dec 07 Javascript
谈谈encodeURI和encodeURIComponent以及escape的区别与应用
Nov 24 Javascript
JAVASCRIPT代码编写俄罗斯方块网页版
Nov 26 Javascript
js禁止浏览器页面后退功能的实例(推荐)
Sep 01 Javascript
极简主义法编写JavaScript类
Nov 02 Javascript
vue全局自定义指令-元素拖拽的实现代码
Apr 14 Javascript
小程序中设置缓存过期的实现方法
Jan 14 Javascript
文章或博客自动生成章节目录索引(支持三级)的实现代码
May 10 Javascript
vue实现下拉菜单树
Oct 22 Javascript
vue3.0实现点击切换验证码(组件)及校验
Nov 18 Vue.js
详解Vue SSR( Vue2 + Koa2 + Webpack4)配置指南
Nov 13 #Javascript
详解Vue组件插槽的使用以及调用组件内的方法
Nov 13 #Javascript
Vue实现一个无限加载列表功能
Nov 13 #Javascript
Vue实现移动端页面切换效果【推荐】
Nov 13 #Javascript
vue中slot(插槽)的介绍与使用
Nov 12 #Javascript
vuex的module模块用法示例
Nov 12 #Javascript
React手稿之 React-Saga的详解
Nov 12 #Javascript
You might like
用PHP 4.2书写安全的脚本
2006/10/09 PHP
php中选择什么接口(mysql、mysqli)访问mysql
2013/02/06 PHP
基于PHP中的常用函数回顾
2013/07/11 PHP
ajax java 实现自动完成功能
2012/12/19 Javascript
jquery.mobile 共同布局遇到的问题小结
2015/02/10 Javascript
Javascript实现可旋转的圆圈实例代码
2015/08/04 Javascript
Bootstrap Navbar Component实现响应式导航
2016/10/08 Javascript
jQuery实现的淡入淡出与滑入滑出效果示例
2018/04/18 jQuery
vue中的$emit 与$on父子组件与兄弟组件的之间通信方式
2018/05/13 Javascript
mpvue跳转页面及注意事项
2018/08/03 Javascript
dts文件中删除一个node或属性的操作方法
2018/08/05 Javascript
Vue 实现展开折叠效果的示例代码
2018/08/27 Javascript
JS调用安卓手机摄像头扫描二维码
2018/10/16 Javascript
基于elementUI使用v-model实现经纬度输入的vue组件
2019/05/12 Javascript
jQuery实现的移动端图片缩放功能组件示例
2020/05/01 jQuery
vue实现简单图片上传
2020/06/30 Javascript
Vue+ElementUI 中级联选择器Bug问题的解决
2020/07/31 Javascript
Python使用xlrd读取Excel格式文件的方法
2015/03/10 Python
python爬虫入门教程--HTML文本的解析库BeautifulSoup(四)
2017/05/25 Python
python使用wxpy轻松实现微信防撤回的方法
2019/02/21 Python
Python如何绘制日历图和热力图
2020/08/07 Python
python实现移动木板小游戏
2020/10/09 Python
Python爬虫自动化爬取b站实时弹幕实例方法
2021/01/26 Python
HTML5 Canvas实现放大镜效果示例
2020/03/25 HTML / CSS
印度手工编织服装和家居用品商店:Fabindi
2019/10/07 全球购物
英国网上电器商店:Electricshop
2020/03/15 全球购物
简述数组与指针的区别
2014/01/02 面试题
介绍一下Linux内核的排队自旋锁
2014/01/04 面试题
关于逃课的检讨书
2014/01/23 职场文书
音乐之声音乐广播稿
2014/09/10 职场文书
幼儿园教师师德师风承诺书
2015/04/28 职场文书
2015秋季运动会通讯稿
2015/07/18 职场文书
MySQL 全文检索的使用示例
2021/06/07 MySQL
Nginx隐藏式跳转(浏览器URL跳转后保持不变)
2022/04/07 Servers
如何使用SQL Server语句创建表
2022/04/12 SQL Server
win10双系统怎么删除一个系统?win10电脑有两个系统删除一个的操作方法
2022/07/15 数码科技