Python采集代理ip并判断是否可用和定时更新的方法


Posted in Python onMay 07, 2018

网上有很多免费的ip地址,都是可以使用的,但是如果手动来获取太麻烦,这里通过Python自动抓取,可以批量获取。

代码如下:

# -*- coding: utf-8 -*-
import re
import urllib2
import json
import os
import time
import socket

class ProxyIp(object):
  def __init__(self):
    self.path = os.path.split(os.path.realpath(__file__))[0]
  # Get latest proxy ip and download to json
  def update_ip(self):
    print 'Update Ip'
    url = 'http://www.ip3366.net/free/'
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    matches = re.findall(
      ur'(\d+.\d+.\d+.\d+)</td>\s+<td>(\d+)</td>\s+<td>.*?</td>\s+<td>(HTTPS?)</td>',
      response.read(),
      re.I
    )
    ls = []
    for match in matches:
      if self.is_open(match[0], match[1]):
        ls.append({'ip':match[0], 'port':match[1], 'protocol': match[2]})
    with open('%s/ip.json' % self.path, 'w') as f:
      json.dump(ls, f)
    return ls
  # whether the ips is last or old.
  def is_last(self):
    m_time = int(os.path.getmtime('%s/ip.json' % self.path))
    now_time = int(time.time())
    return (now_time - m_time) > 60*60*4 # 4 hours
  @staticmethod
  def is_open(ip, port):
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    try:
      s.connect(ip, int(port))
      return True
    except:
      print 'Faild IP: %s:%s' % (ip, port)
      return False
  def get_proxy_ips(self):
    if not self.is_last():
      return self.update_ip()
    else:
      with open('%s/ip.json' % self.path, 'r') as f:
        return json.load(f)

以上这篇Python采集代理ip并判断是否可用和定时更新的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现windows下模拟按键和鼠标点击的方法
Mar 13 Python
python追加元素到列表的方法
Jul 28 Python
python 异常处理总结
Oct 18 Python
python3+PyQt5重新实现自定义数据拖放处理
Apr 19 Python
django框架之cookie/session的使用示例(小结)
Oct 15 Python
Python获取网段内ping通IP的方法
Jan 31 Python
python/Matplotlib绘制复变函数图像教程
Nov 21 Python
python根据完整路径获得盘名/路径名/文件名/文件扩展名的方法
Apr 22 Python
Python小白不正确的使用类变量实例
May 29 Python
基于python 取余问题(%)详解
Jun 03 Python
Python如何输出警告信息
Jul 30 Python
pip 20.3 新版本发布!即将抛弃 Python 2.x(推荐)
Dec 16 Python
利用python的socket发送http(s)请求方法示例
May 07 #Python
Python爬虫抓取代理IP并检验可用性的实例
May 07 #Python
Python视频爬虫实现下载头条视频功能示例
May 07 #Python
十分钟利用Python制作属于你自己的个性logo
May 07 #Python
Redis使用watch完成秒杀抢购功能的代码
May 07 #Python
Python文本统计功能之西游记用字统计操作示例
May 07 #Python
Python中的函数作用域
May 07 #Python
You might like
简单采集了yahoo的一些数据
2007/02/14 PHP
深入解析PHP内存管理之谁动了我的内存
2013/06/20 PHP
PHP验证信用卡卡号是否正确函数
2015/05/27 PHP
win7安装php框架Yii的方法
2016/01/25 PHP
Thinkphp自定义生成缩略图尺寸的方法
2019/08/05 PHP
BOOM vs RR BO5 第二场 2.14
2021/03/10 DOTA
JQuery 风格的HTML文本转义
2009/07/01 Javascript
推荐40个简单的 jQuery 导航插件和教程(下篇)
2012/09/14 Javascript
多个checkbox被选中时如何判断是否有自己想要的
2014/09/22 Javascript
浅析AngularJS中的生命周期和延迟处理
2015/06/18 Javascript
全面理解JavaScript中的继承(必看)
2016/06/16 Javascript
Vue监听数组变化源码解析
2017/03/09 Javascript
vue2的todolist入门小项目的详细解析
2017/05/11 Javascript
浅析 NodeJs 的几种文件路径
2017/06/07 NodeJs
JS/HTML5游戏常用算法之路径搜索算法 随机迷宫算法详解【普里姆算法】
2018/12/13 Javascript
[01:58]最残酷竞争 2016国际邀请赛中国区预选赛积分循环赛回顾
2016/06/28 DOTA
Python的Bottle框架中实现最基本的get和post的方法的教程
2015/04/30 Python
Anaconda入门使用总结
2018/04/05 Python
Python中return self的用法详解
2018/07/27 Python
python多进程控制学习小结
2018/10/31 Python
python代理工具mitmproxy使用指南
2019/07/04 Python
使用django和vue进行数据交互的方法步骤
2019/11/11 Python
Python 用turtle实现用正方形画圆的例子
2019/11/21 Python
如何写python的配置文件
2020/06/07 Python
python os模块在系统管理中的应用
2020/06/22 Python
python如何修改文件时间属性
2021/02/05 Python
使用CSS3设计地图上的雷达定位提示效果
2016/04/05 HTML / CSS
Under Armour安德玛德国官网:美国高端运动科技品牌
2019/03/09 全球购物
什么是接口(Interface)?
2013/02/01 面试题
银行求职推荐信范文
2013/11/30 职场文书
涉密人员保密承诺书
2014/05/28 职场文书
医院保洁服务方案
2014/06/11 职场文书
群众路线班子对照检查材料
2014/09/25 职场文书
幼儿园园务工作总结2015
2015/05/18 职场文书
人生遥控器观后感
2015/06/11 职场文书
本地搭建minio文件服务器(使用bat脚本启动)的方法
2022/07/15 Servers