node.js 抓取代理ip实例代码


Posted in Javascript onApril 30, 2017

node.js实现抓取代理ip

主要文件:index.js

/*
* 支持:node.js v7.9.0
*/
const cheerio=require('cheerio');
const fetch =require('node-fetch');
const Promise=require('bluebird');
let mongoose=require('mongoose');

Promise.promisifyAll(mongoose);
let Schema=mongoose.Schema;
mongoose.connect('mongodb://localhost:27017/ipproxypool');
let IPpool=new Schema({
  ip:{type:String,unique:true}
})
let Ipproxy=mongoose.model('IP',IPpool);

function fetchUrl(url){
  fetch(url,{
    method:'get',
    headers:{
    }
  })
  .then(res=>res.text())
  .then(body=>{
    let $=cheerio.load(body);
    let length=$('#list table tbody').find('tr').length;
    for (let i=0;i<length;i++){
    let ipaddress= $('#list table tbody').find('tr').eq(i).find('td').eq(0).text() ;
    let port = $('#list table tbody').find('tr').eq(i).find('td').eq(1).text();
    console.log(`IP:${ipaddress}:${port}`);
    let ip=`${ipaddress}:${port}`
    let ippool=new Ipproxy({
      ip:ip
    })
    ippool.save();
    }
  })
}

var sleep = function (time) {
  return new Promise(function (resolve, reject) {
    setTimeout(function () {
      resolve('ok');
    }, time);
  })
};
const pageNumber=10;
var start = async function(){
  for(let j=1;j<pageNumber;j++){
     console.log(`当前是第${j}次等待..`);
    fetchUrl(`http://www.kuaidaili.com/free/inha/${j}/`);
    await sleep(1500);
  }
}
start();

包支持 : package.json

{
 "name": "demo-4-ipproxypool",
 "version": "1.0.0",
 "description": "",
 "main": "index.js",
 "scripts": {
  "test": "echo \"Error: no test specified\" && exit 1"
 },
 "author": "false-l",
 "license": "",
 "devDependencies": {
  "babel-preset-es2015": "^6.24.1",
  "babel-preset-react": "^6.24.1",
  "babel-preset-stage-3": "^6.24.1"
 },
 "dependencies": {
  "babel-core": "^6.24.1",
  "bluebird": "^3.5.0",
  "cheerio": "^0.22.0",
  "koa": "^2.2.0",
  "koa-router": "^7.1.1",
  "mongoose": "^4.9.6",
  "node-fetch": "^1.6.3"
 }
}

本地需要安装mongodb数据库,用于存储抓取到的ip,目前还未实现ip验证。写这个主要是处于好奇。

上面的代码就可以实现抓取ip代理网站的ip并存到mongodb数据库中。

下面在放出一个基于koa2的api接口的简易服务器实现

server

const Promise=require('bluebird');
let mongoose=require('mongoose');
const koa=require('koa');
const app=new koa();
var router = require('koa-router')();
Promise.promisifyAll(mongoose);
let Schema=mongoose.Schema;
mongoose.connect('mongodb://localhost:27017/ipproxypool');
let IPpool=new Schema({
  ip:{type:String,unique:true}
})
let Ipproxy=mongoose.model('IP',IPpool);

app.use(async (ctx, next) => {
 await next();
 var data=await Ipproxy.find({},function(err,ips){
  var ipmap=[];
   ips.forEach(function(ip){
     ipmap[ip._id]=ip;
     //console.log(ip)
   });
 })
 var map=data.map(ip=>ip.ip);
 ctx.response.type = 'text/json';
 ctx.response.body = map;
});
app.listen(3000);
console.log('server listen:3000')

至于为什么既有promise又有async,是因为对异步语法还不是很熟,怎么会怎么写了。

使用方式:

 根据package.json

npm install   // 安装支持

node index.js  //获取代理 ip

node server.js  //运行简易ip接口

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Javascript 相关文章推荐
Chrome中JSON.parse的特殊实现
Jan 12 Javascript
基于jquery的设置页面文本框 只能输入数字的实现代码
Apr 19 Javascript
jQuery中.live()方法的用法深入解析
Dec 30 Javascript
js 采用delete实现继承示例代码
May 20 Javascript
Angular ng-repeat 对象和数组遍历实例
Sep 14 Javascript
基于jQuery ligerUI实现分页样式
Sep 18 Javascript
JavaScript中浅讲ajax图文详解
Nov 11 Javascript
微信小程序图片自适应支持多图实例详解
Jun 21 Javascript
JS和jQuery通过this获取html标签中的属性值(实例代码)
Sep 11 jQuery
React+Webpack快速上手指南(小结)
Aug 15 Javascript
Vue使用Proxy监听所有接口状态的方法实现
Jun 07 Javascript
jquery实现上传图片功能
Jun 29 jQuery
socket.io学习教程之深入学习篇(三)
Apr 29 #Javascript
socket.io学习教程之基本应用(二)
Apr 29 #Javascript
socket.io学习教程之基础介绍(一)
Apr 29 #Javascript
Vue.js实现一个SPA登录页面的过程【推荐】
Apr 29 #Javascript
Vue.js在使用中的一些注意知识点
Apr 29 #Javascript
jQuery实现按比例缩放图片的方法
Apr 29 #jQuery
Vue开发中整合axios的文件整理
Apr 29 #Javascript
You might like
PHP运行出现Notice : Use of undefined constant 的完美解决方案分享
2012/03/05 PHP
php中AES加密解密的例子小结
2014/02/18 PHP
PHP以mysqli方式连接类完整代码实例
2014/07/15 PHP
PHP控制前台弹出对话框的实现方法
2016/08/21 PHP
PHP时间处理类操作示例
2018/09/05 PHP
gearman中任务的优先级和返回状态实例分析
2020/02/27 PHP
js调用AJAX时Get和post的乱码解决方法
2013/06/04 Javascript
JS获取浏览器语言动态加载JS文件示例代码
2014/10/31 Javascript
js实现分享到随页面滚动而滑动效果的方法
2015/04/10 Javascript
Jquery检验手机号是否符合规则并根据手机号检测结果将提交按钮设为不同状态
2015/11/26 Javascript
javascript实现瀑布流加载图片原理
2016/02/02 Javascript
jQuery 更改checkbox的状态,无效的解决方法
2016/07/22 Javascript
JS实现的表格行上下移动操作示例
2016/08/03 Javascript
js实现打地鼠小游戏
2017/02/13 Javascript
ES6字符串模板,剩余参数,默认参数功能与用法示例
2017/04/06 Javascript
JS简单生成随机数(随机密码)的方法
2017/05/11 Javascript
详解webpack的配置文件entry与output
2017/08/21 Javascript
五步轻松实现zTree的使用
2017/11/01 Javascript
JS跨域请求的问题解析
2018/12/03 Javascript
小程序转发探索示例
2019/02/19 Javascript
简单了解JavaScript sort方法
2019/11/25 Javascript
JS实现基本的网页计算器功能示例
2020/01/16 Javascript
Python获取网页上图片下载地址的方法
2015/03/11 Python
Python实现时钟显示效果思路详解
2018/04/11 Python
对python 判断数字是否小于0的方法详解
2019/01/26 Python
Django 大文件下载实现过程解析
2019/08/01 Python
python 二维矩阵转三维矩阵示例
2019/11/30 Python
python3 常见解密加密算法实例分析【base64、MD5等】
2019/12/19 Python
python名片管理系统开发
2020/06/18 Python
党校培训思想汇报
2014/01/03 职场文书
最新的互联网创业计划书
2014/01/10 职场文书
《黄山奇石》教学反思
2014/04/19 职场文书
商务代表岗位职责
2015/02/15 职场文书
2015年秋季小班开学寄语
2015/05/27 职场文书
初中生入团申请书范文(五篇)
2019/10/16 职场文书
简述Java中throw-throws异常抛出
2021/08/07 Java/Android