node爬取新型冠状病毒的疫情实时动态


Posted in Javascript onFebruary 06, 2020

写在前面:

新型冠状病毒有多么可怕,我想大家都已经知道了。湖北爆发了新型冠状病毒,湖南前几天爆发了禽流感,四川发生地震,中国加油!昨天晚上我突发奇想地打算把疫情实时动态展示在自建站上,于是说干就干(先附上昨晚用puppeteer截的图片)。 

node爬取新型冠状病毒的疫情实时动态

安装node_modules:

所需的node_modules:①puppeteer;②cheerio;③fs;④cron。

需要注意的是安装puppeteer的时候很容易安装失败,这里有俩个解决方法,都是用淘宝源(马云爸爸不是白叫的?)。

一、先将npm换成淘宝源再安装:

npm config set registry http://registry.npm.taobao.org/
npm install -g cheerio
npm i -g puppeteer
npm i -g fs
npm i -g cron

二、用cnpm进行安装:

npm install cnpm -g --registry=https://registry.npm.taobao.org/
cnpm install -g cheerio
cnpm i -g puppeteer
cnpm i -g fs
cnpm i -g cron

具体操作:

用puppeteer爬取:

puppeteer本质上是一个chrome浏览器,网页很难分清这是人类用户还是爬虫,我们可以用它来加载动态网页。

先来一个简单的例子,用puppeteer截图:

const puppeteer = require('puppeteer');
 
(async () => {
 const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});  //启动浏览器实例
  /* puppeteer.launch()的可选参数如下:
  headless: 是否打开浏览器,默认为true
  ignoreHTTPSErrors: 是否忽略https错误,默认为true
  executablePath: 配置要调用浏览器的可执行路径,默认是同Puppeteer一起安装的Chromeium
  slowMo:指定的毫秒延缓Puppeteer的操作
  args:设置浏览器的相关参数,比如是否启动沙箱模式“--no-sandbox”,是否更换代理“--proxy-server”,
  */
 const page = await browser.newPage();  //新建页面
 await page.goto('https://ncov.dxy.cn/');  //访问目标网页:丁香医生
 await page.screenshot({  //进行截图
  path: 'p1.png',
  type: 'png',
  // quality: 100, 只对jpg有效
  // 指定区域截图,clip和fullPage两者只能设置一个
  // fullPage: true,
  clip: {
   x: 0,
   y: 0,
   width: 1000,
   height: 1000
  }
 });
 browser.close();  //关闭浏览器
})();

用puppeteer获取网页源代码:

const puppeteer = require('puppeteer');
 
(async () => {
 const browser = await puppeteer.launch();
 const page = await browser.newPage();
 await page.goto('https://ncov.dxy.cn/');
 //page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe
 const frame = await page.mainFrame();
 const bodyHandle = await frame.$('html');  //获取所有的html
 //frame.evaluate()在浏览器中执行函数,相当于在控制台中执行函数,返回一个Promise
 const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
 await bodyHandle.dispose();
 browser.close();
 console.log(html);
})();

用cheerio解析html:

// 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象
// 使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码
var $ = cheerio.load(html);
var $menu_box = $(".statistics___1cFUQ");
console.log($menu_box.html());

用fs写入到文件中:

/* fs.wirteFile有三个参数
  * 1,第一个参数是要写入的文件路径
  * 2,第二个参数是要写入得内容
  * 3,第三个参数是可选参数,表示要写入的文件编码格式,一般就不写,默认就行
  * 4,第四个参数是个回调函数 只有一个参数error,来判断是否写入成功
  */
fs.writeFile("./coronavirus.php",$menu_box.html(),error=>{
  if(error) return console.log("写入文件失败,原因是:"+error.message);
  console.log('写入成功');
});

引入到网站中:

我是直接把它放在头部,局部代码如下:

<div id="header-bg">
  <style type="text/css">
    .title___2d1_B img {
      width: 18px;
      height: 18px;
      cursor:pointer;
    }
    #novel_coronavirus {
      text-align: center;
      position:relative;
      top:50px;
      background-color:rgba(255,255,255,0.7);
    }
    #novel_coronavirus li {
      margin: 10px;
      padding:2px;
      border:1px slide #000;
    }
    #novel_coronavirus ul li { 
      list-style:none;
      display: inline-block;
    }
    .count___3GCdh p{
      font-size:12px;
    }
    .count___3GCdh span{
      font-size:20px;
    }
  </style>
  <div id="novel_coronavirus" > 
    <strong><p style="font-size:23px">新型冠状病毒疫情实时动态</p></strong>
    <?php require("./test/coronavirus.php");?>
  </div>
</div>

服务器上运行的完整代码:

CronJob的定时参数是 秒 分钟 小时 天 月份 星期。这里我设置成了每分钟爬取一次。(我是用mstsc远程连接后运行node coronavirus.js的,这样关闭远程桌面连接后,服务器依然会每分钟爬取一次丁香医生上的新型冠状病毒的全国疫情实时动态。 

const cheerio = require('cheerio');
const puppeteer = require('puppeteer');
const fs = require('fs');
var cronJob = require('cron').CronJob;
new cronJob('0 */1 * * * *',function(){
 update();
},null,true);  //每分钟执行一次
//爬取全国新型肺炎疫情实时动态并写入到指定的.php文件
function update() {
 (async () => {
  const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});
  const page = await browser.newPage();
  await page.goto('https://ncov.dxy.cn/');
  const frame = await page.mainFrame();
  const bodyHandle = await frame.$('html');
  const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
  await bodyHandle.dispose();
  browser.close();
  var $ = cheerio.load(html);
  var $menu_box = $(".statistics___1cFUQ");
  fs.writeFile("coronavirus.php",$menu_box.html(),error=>{
   if(error) {
    console.log("写入文件失败,原因是:"+error.message);
   } else { 
    console.log('更新成功');
   }
  });
 })();
}

查看我的网站 

node爬取新型冠状病毒的疫情实时动态

node爬取新型冠状病毒的疫情实时动态

总结

以上所述是小编给大家介绍的node爬取新型冠状病毒的疫情实时动态,希望对大家有所帮助!

Javascript 相关文章推荐
Jquery 动态循环输出表格具体方法
Nov 23 Javascript
JS实现文字掉落效果的方法
May 06 Javascript
jquery实现鼠标点击后展开列表内容的导航栏效果
Sep 14 Javascript
JavaScript学习笔记--常用的互动方法
Dec 07 Javascript
js时间戳格式化成日期格式的多种方法介绍
Feb 16 Javascript
vue一步步实现alert功能
Jul 05 Javascript
Vue自定义指令实现checkbox全选功能的方法
Feb 28 Javascript
使用live-server快速搭建本地服务器+自动刷新的方法
Mar 09 Javascript
vue移动端弹框组件的实例
Sep 25 Javascript
原生JS实现旋转轮播图+文字内容切换效果【附源码】
Sep 29 Javascript
JS执行控制之节流模式实例分析
Dec 21 Javascript
react native 原生模块桥接的简单说明小结
Feb 26 Javascript
vue 检测用户上传图片宽高的方法
Feb 06 #Javascript
vue中对象数组去重的实现
Feb 06 #Javascript
2019最新21个MySQL高频面试题介绍
Feb 06 #Javascript
node.JS路径解析之PATH模块使用方法详解
Feb 06 #Javascript
node.JS二进制操作模块buffer对象使用方法详解
Feb 06 #Javascript
JavaScript实现左右滚动电影画布
Feb 06 #Javascript
6种JavaScript继承方式及优缺点(小结)
Feb 06 #Javascript
You might like
为什么那些咖啡爱好者大多看不上连锁咖啡店?
2021/03/06 咖啡文化
PHP高级OOP技术演示
2009/08/27 PHP
PHP定时自动生成静态HTML的实现代码
2010/06/20 PHP
php数组的概述及分类与声明代码演示
2013/02/26 PHP
php出租房数据管理及搜索页面
2017/05/23 PHP
PHP实现的链式队列结构示例
2017/09/15 PHP
javascript怎么禁用浏览器后退按钮
2014/03/27 Javascript
node.js中的fs.writeFile方法使用说明
2014/12/14 Javascript
完美兼容IE,chrome,ff的设为首页、加入收藏及保存到桌面js代码
2014/12/17 Javascript
浅谈window对象的scrollBy()方法
2015/07/15 Javascript
JavaScript实现的Tween算法及缓冲特效实例代码
2015/11/03 Javascript
AngularJS 使用$sce控制代码安全检查
2016/01/05 Javascript
7个jQuery最佳实践
2016/01/12 Javascript
javascript断点调试心得分享
2016/04/23 Javascript
详解JavaScript中的事件流和事件处理程序
2016/05/20 Javascript
Node.js使用Express创建Web项目详细教程
2017/03/31 Javascript
p5.js入门教程之鼠标交互的示例
2018/03/16 Javascript
vue内置指令详解
2018/04/03 Javascript
jQuery实现checkbox全选功能完整实例
2018/07/12 jQuery
vue基础之data存储数据及v-for循环用法示例
2019/03/08 Javascript
countUp.js实现数字动态变化效果
2019/10/17 Javascript
python基于Tkinter库实现简单文本编辑器实例
2015/05/05 Python
在Python中操作日期和时间之gmtime()方法的使用
2015/05/22 Python
Python实现二分查找算法实例
2015/05/26 Python
讲解Python的Scrapy爬虫框架使用代理进行采集的方法
2016/02/18 Python
Python数据结构与算法之图的广度优先与深度优先搜索算法示例
2017/12/14 Python
python编写分类决策树的代码
2017/12/21 Python
Python 找到列表中满足某些条件的元素方法
2018/06/26 Python
浅谈python多进程共享变量Value的使用tips
2019/07/16 Python
pygame用blit()实现动画效果的示例代码
2020/05/28 Python
利用css3 translate完美实现表头固定效果
2017/02/28 HTML / CSS
2015羊年春节慰问信
2015/02/14 职场文书
2015年财务部年度工作总结
2015/05/19 职场文书
《小摄影师》教学反思
2016/02/18 职场文书
Promise面试题详解之控制并发
2021/05/14 面试题
直播实况, OMG破敌三路五十分钟大战神技局摩托车
2022/04/01 DOTA