Python采集代理ip并判断是否可用和定时更新的方法


Posted in Python onMay 07, 2018

网上有很多免费的ip地址,都是可以使用的,但是如果手动来获取太麻烦,这里通过Python自动抓取,可以批量获取。

代码如下:

# -*- coding: utf-8 -*-
import re
import urllib2
import json
import os
import time
import socket

class ProxyIp(object):
  def __init__(self):
    self.path = os.path.split(os.path.realpath(__file__))[0]
  # Get latest proxy ip and download to json
  def update_ip(self):
    print 'Update Ip'
    url = 'http://www.ip3366.net/free/'
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    matches = re.findall(
      ur'(\d+.\d+.\d+.\d+)</td>\s+<td>(\d+)</td>\s+<td>.*?</td>\s+<td>(HTTPS?)</td>',
      response.read(),
      re.I
    )
    ls = []
    for match in matches:
      if self.is_open(match[0], match[1]):
        ls.append({'ip':match[0], 'port':match[1], 'protocol': match[2]})
    with open('%s/ip.json' % self.path, 'w') as f:
      json.dump(ls, f)
    return ls
  # whether the ips is last or old.
  def is_last(self):
    m_time = int(os.path.getmtime('%s/ip.json' % self.path))
    now_time = int(time.time())
    return (now_time - m_time) > 60*60*4 # 4 hours
  @staticmethod
  def is_open(ip, port):
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    try:
      s.connect(ip, int(port))
      return True
    except:
      print 'Faild IP: %s:%s' % (ip, port)
      return False
  def get_proxy_ips(self):
    if not self.is_last():
      return self.update_ip()
    else:
      with open('%s/ip.json' % self.path, 'r') as f:
        return json.load(f)

以上这篇Python采集代理ip并判断是否可用和定时更新的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python利用pyHook实现监听用户鼠标与键盘事件
Aug 21 Python
用Python实现web端用户登录和注册功能的教程
Apr 30 Python
pycharm下打开、执行并调试scrapy爬虫程序的方法
Nov 29 Python
详解利用django中间件django.middleware.csrf.CsrfViewMiddleware防止csrf攻击
Oct 09 Python
Python 多线程不加锁分块读取文件的方法
Dec 11 Python
Python实现字符串匹配的KMP算法
Apr 04 Python
使用Python进行体育竞技分析(预测球队成绩)
May 16 Python
如何在python中写hive脚本
Nov 08 Python
Tensorflow:转置函数 transpose的使用详解
Feb 11 Python
Python flask框架实现查询数据库并显示数据
Jun 04 Python
详解Python IO口多路复用
Jun 17 Python
详解Selenium 元素定位和WebDriver常用方法
Dec 04 Python
利用python的socket发送http(s)请求方法示例
May 07 #Python
Python爬虫抓取代理IP并检验可用性的实例
May 07 #Python
Python视频爬虫实现下载头条视频功能示例
May 07 #Python
十分钟利用Python制作属于你自己的个性logo
May 07 #Python
Redis使用watch完成秒杀抢购功能的代码
May 07 #Python
Python文本统计功能之西游记用字统计操作示例
May 07 #Python
Python中的函数作用域
May 07 #Python
You might like
PHP 创建标签云函数代码
2010/05/26 PHP
php方法调用模式与函数调用模式简例
2011/09/20 PHP
PHP面试常用算法(推荐)
2016/07/22 PHP
Laravel监听数据库访问,打印SQL的例子
2019/10/24 PHP
Prototype使用指南之ajax
2007/01/10 Javascript
让iframe自适应高度(支持XHTML,支持FF)
2007/07/24 Javascript
Jquery 表格合并的问题分享
2011/09/17 Javascript
JQuery DataTable删除行后的页面更新利用Ajax解决
2013/05/17 Javascript
JavaScript导出Excel实例详解
2014/11/25 Javascript
JavaScript判断IE版本型号
2015/07/27 Javascript
通过XMLHttpRequest和jQuery实现ajax的几种方式
2015/08/28 Javascript
JS在onclientclick里如何控制onclick的执行
2016/05/30 Javascript
JavaScript将DOM事件处理程序封装为event.js 出现的低级错误问题
2016/08/03 Javascript
微信小程序 火车票查询实例讲解
2016/10/17 Javascript
jQuery模拟完美实现经典FLASH导航动画效果【附demo源码下载】
2016/11/09 Javascript
原生js实现轮播图的示例代码
2017/02/20 Javascript
实例学习JavaScript读取和写入cookie
2018/01/29 Javascript
JavaScript继承的特性与实践应用深入详解
2018/12/30 Javascript
详解JS判断页面是在手机端还是在PC端打开的方法
2019/04/26 Javascript
javascrpt密码强度校验函数详解
2020/03/18 Javascript
在Django同1个页面中的多表单处理详解
2017/01/25 Python
python 将大文件切分为多个小文件的实例
2019/01/14 Python
Python的matplotlib绘图如何修改背景颜色的实现
2019/07/16 Python
python利用openpyxl拆分多个工作表的工作簿的方法
2019/09/27 Python
Django项目中使用JWT的实现代码
2019/11/04 Python
解决json中ensure_ascii=False的问题
2020/04/03 Python
python实现批量转换图片为黑白
2020/06/16 Python
Django DRF认证组件流程实现原理详解
2020/08/17 Python
Python 爬虫批量爬取网页图片保存到本地的实现代码
2020/12/24 Python
html5指南-6.如何创建离线web应用程序实现离线访问
2013/01/07 HTML / CSS
Nuts.com:优质散装,批发坚果、干果和巧克力等
2017/03/21 全球购物
建筑施工实习自我鉴定
2013/09/19 职场文书
镇创先争优活动总结
2014/08/28 职场文书
办公楼租房协议书范本
2014/11/25 职场文书
2019年房屋委托租赁合同范本(通用版)!
2019/07/17 职场文书
python实现socket简单通信的示例代码
2021/04/13 Python