node.js 抓取代理ip实例代码


Posted in Javascript onApril 30, 2017

node.js实现抓取代理ip

主要文件:index.js

/*
* 支持:node.js v7.9.0
*/
const cheerio=require('cheerio');
const fetch =require('node-fetch');
const Promise=require('bluebird');
let mongoose=require('mongoose');

Promise.promisifyAll(mongoose);
let Schema=mongoose.Schema;
mongoose.connect('mongodb://localhost:27017/ipproxypool');
let IPpool=new Schema({
  ip:{type:String,unique:true}
})
let Ipproxy=mongoose.model('IP',IPpool);

function fetchUrl(url){
  fetch(url,{
    method:'get',
    headers:{
    }
  })
  .then(res=>res.text())
  .then(body=>{
    let $=cheerio.load(body);
    let length=$('#list table tbody').find('tr').length;
    for (let i=0;i<length;i++){
    let ipaddress= $('#list table tbody').find('tr').eq(i).find('td').eq(0).text() ;
    let port = $('#list table tbody').find('tr').eq(i).find('td').eq(1).text();
    console.log(`IP:${ipaddress}:${port}`);
    let ip=`${ipaddress}:${port}`
    let ippool=new Ipproxy({
      ip:ip
    })
    ippool.save();
    }
  })
}

var sleep = function (time) {
  return new Promise(function (resolve, reject) {
    setTimeout(function () {
      resolve('ok');
    }, time);
  })
};
const pageNumber=10;
var start = async function(){
  for(let j=1;j<pageNumber;j++){
     console.log(`当前是第${j}次等待..`);
    fetchUrl(`http://www.kuaidaili.com/free/inha/${j}/`);
    await sleep(1500);
  }
}
start();

包支持 : package.json

{
 "name": "demo-4-ipproxypool",
 "version": "1.0.0",
 "description": "",
 "main": "index.js",
 "scripts": {
  "test": "echo \"Error: no test specified\" && exit 1"
 },
 "author": "false-l",
 "license": "",
 "devDependencies": {
  "babel-preset-es2015": "^6.24.1",
  "babel-preset-react": "^6.24.1",
  "babel-preset-stage-3": "^6.24.1"
 },
 "dependencies": {
  "babel-core": "^6.24.1",
  "bluebird": "^3.5.0",
  "cheerio": "^0.22.0",
  "koa": "^2.2.0",
  "koa-router": "^7.1.1",
  "mongoose": "^4.9.6",
  "node-fetch": "^1.6.3"
 }
}

本地需要安装mongodb数据库,用于存储抓取到的ip,目前还未实现ip验证。写这个主要是处于好奇。

上面的代码就可以实现抓取ip代理网站的ip并存到mongodb数据库中。

下面在放出一个基于koa2的api接口的简易服务器实现

server

const Promise=require('bluebird');
let mongoose=require('mongoose');
const koa=require('koa');
const app=new koa();
var router = require('koa-router')();
Promise.promisifyAll(mongoose);
let Schema=mongoose.Schema;
mongoose.connect('mongodb://localhost:27017/ipproxypool');
let IPpool=new Schema({
  ip:{type:String,unique:true}
})
let Ipproxy=mongoose.model('IP',IPpool);

app.use(async (ctx, next) => {
 await next();
 var data=await Ipproxy.find({},function(err,ips){
  var ipmap=[];
   ips.forEach(function(ip){
     ipmap[ip._id]=ip;
     //console.log(ip)
   });
 })
 var map=data.map(ip=>ip.ip);
 ctx.response.type = 'text/json';
 ctx.response.body = map;
});
app.listen(3000);
console.log('server listen:3000')

至于为什么既有promise又有async,是因为对异步语法还不是很熟,怎么会怎么写了。

使用方式:

 根据package.json

npm install   // 安装支持

node index.js  //获取代理 ip

node server.js  //运行简易ip接口

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Javascript 相关文章推荐
JQUERY THICKBOX弹出层插件
Aug 30 Javascript
JavaScript事件委托用法分析
Jan 24 Javascript
动态加载jQuery的方法
Jun 16 Javascript
jquery验证邮箱格式是否正确实例讲解
Nov 16 Javascript
直接拿来用的页面跳转进度条JS实现
Jan 06 Javascript
jquery获取form表单input元素值的简单实例
May 30 Javascript
angular-cli修改端口号【angular2】
Apr 19 Javascript
详解AngularJS ng-class样式切换
Jun 27 Javascript
Vue数据绑定实例写法
Aug 06 Javascript
详解小程序如何改变onLoad的执行时机
Nov 01 Javascript
JavaScript setInterval()与setTimeout()计时器
Dec 27 Javascript
javascript中的offsetWidth、clientWidth、innerWidth及相关属性方法
May 14 Javascript
socket.io学习教程之深入学习篇(三)
Apr 29 #Javascript
socket.io学习教程之基本应用(二)
Apr 29 #Javascript
socket.io学习教程之基础介绍(一)
Apr 29 #Javascript
Vue.js实现一个SPA登录页面的过程【推荐】
Apr 29 #Javascript
Vue.js在使用中的一些注意知识点
Apr 29 #Javascript
jQuery实现按比例缩放图片的方法
Apr 29 #jQuery
Vue开发中整合axios的文件整理
Apr 29 #Javascript
You might like
PHP的preg_match匹配字符串长度问题解决方法
2014/05/03 PHP
excel操作之Add Data to a Spreadsheet Cell
2007/06/12 Javascript
页面加载完毕后滚动条自动滚动一定位置
2014/02/20 Javascript
JavaScript的arguments对象应用示例
2014/09/15 Javascript
Redis基本知识、安装、部署、配置笔记
2015/03/05 Javascript
TinyMCE提交AjaxForm获取不到数据的解决方法
2015/03/05 Javascript
JavaScript中使用concat()方法拼接字符串的教程
2015/06/06 Javascript
Nodejs的express使用教程
2015/11/23 NodeJs
js 截取或者替换字符串中的数字实现方法
2016/06/13 Javascript
JavaScript排序算法动画演示效果的实现方法
2016/10/18 Javascript
jQuery实现遮罩层登录对话框
2016/12/29 Javascript
微信小程序图片左右摆动效果详解
2019/07/13 Javascript
vue实现手机号码的校验实例代码(防抖函数的应用场景)
2019/09/05 Javascript
记录vue做微信自定义分享的一些问题
2019/09/12 Javascript
element中el-container容器与div布局区分详解
2020/05/13 Javascript
js实现详情页放大镜效果
2020/10/28 Javascript
ant design pro中可控的筛选和排序实例
2020/11/17 Javascript
Python 编码处理-str与Unicode的区别
2016/09/06 Python
numpy中实现二维数组按照某列、某行排序的方法
2018/04/04 Python
Python装饰器用法实例总结
2018/05/26 Python
python+selenium打印当前页面的titl和url方法
2018/06/22 Python
分享vim python缩进等一些配置
2018/07/02 Python
python实现的MySQL增删改查操作实例小结
2018/12/19 Python
python利用Opencv实现人脸识别功能
2019/04/25 Python
利用python在excel中画图的实现方法
2020/03/17 Python
Python matplotlib实时画图案例
2020/04/23 Python
python 输入字符串生成所有有效的IP地址(LeetCode 93号题)
2020/10/15 Python
Python中logging日志的四个等级和使用
2020/11/17 Python
HTML5 Canvas中使用用路径描画圆弧
2015/01/01 HTML / CSS
美国椅子和沙发制造商:La-Z-Boy
2020/10/25 全球购物
销售行业个人求职自荐信
2013/09/25 职场文书
机修工工作职责
2014/02/21 职场文书
对公司合理化的建议书
2014/03/12 职场文书
小学教师读书活动总结
2014/07/08 职场文书
四风自我剖析材料思想汇报
2014/10/01 职场文书
2014乡镇党委副书记对照检查材料思想汇报
2014/10/09 职场文书