python 爬虫 批量获取代理ip的实例代码


Posted in Python onMay 22, 2018

实例如下所示:

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
总结python实现父类调用两种方法的不同
Jan 15 Python
Python实现随机选择元素功能
Sep 14 Python
Python使用pandas对数据进行差分运算的方法
Dec 22 Python
对Python3 * 和 ** 运算符详解
Feb 16 Python
python mysql断开重连的实现方法
Jul 26 Python
在vscode中配置python环境过程解析
Sep 28 Python
Python银行系统实战源码
Oct 25 Python
浅谈keras的深度模型训练过程及结果记录方式
Jan 24 Python
django-csrf使用和禁用方式
Mar 13 Python
终于搞懂了Keras中multiloss的对应关系介绍
Jun 22 Python
django使用graphql的实例
Sep 02 Python
Python 随机按键模拟2小时
Dec 30 Python
python 获取当天每个准点时间戳的实例
May 22 #Python
selenium+python 去除启动的黑色cmd窗口方法
May 22 #Python
python3实现163邮箱SMTP发送邮件
May 22 #Python
django请求返回不同的类型图片json,xml,html的实例
May 22 #Python
Django使用HttpResponse返回图片并显示的方法
May 22 #Python
python实现最长公共子序列
May 22 #Python
使用python存储网页上的图片实例
May 22 #Python
You might like
php heredoc和phpwind的模板技术使用方法小结
2008/03/28 PHP
PHP跨时区(UTC时间)应用解决方案
2013/01/11 PHP
解析php session_set_save_handler 函数的用法(mysql)
2013/06/29 PHP
初识PHP
2014/09/28 PHP
腾讯微博提示missing parameter errorcode 102 错误的解决方法
2014/12/22 PHP
PHP单例模式简单用法示例
2017/06/23 PHP
javascript小数计算出现近似值的解决办法
2010/02/06 Javascript
jquery弹出框的用法示例(一)
2013/08/26 Javascript
JavaScript中的常见问题解决方法(乱码,IE缓存,代理)
2013/11/28 Javascript
js+css实现超简洁的二级下拉菜单效果代码
2015/09/07 Javascript
JS判断当前页面是否在微信浏览器打开的方法
2015/12/08 Javascript
javascript运算符——逻辑运算符全面解析
2016/06/27 Javascript
JS实现的二叉树算法完整实例
2017/04/06 Javascript
关于JavaScript语句后面的分号问题
2017/12/07 Javascript
解决VUE框架 导致绑定事件的阻止冒泡失效问题
2018/02/24 Javascript
angular2 ng2-file-upload上传示例代码
2018/08/23 Javascript
在vue项目中使用Jquery-contextmenu插件的步骤讲解
2019/01/27 jQuery
微信小程序API—获取定位的详解
2019/04/30 Javascript
Vue3不支持Filters过滤器的问题
2020/09/24 Javascript
python备份文件的脚本
2008/08/11 Python
Python标准库sched模块使用指南
2017/07/06 Python
Python Flask基础教程示例代码
2018/02/07 Python
python linecache 处理固定格式文本数据的方法
2019/01/08 Python
使用python+whoosh实现全文检索
2019/12/09 Python
美国卡车、吉普车和SUV零件网站:4 Wheel Parts
2016/11/24 全球购物
市场营销专业个人自荐信格式
2013/09/21 职场文书
乐观大学生的自我评价
2014/01/10 职场文书
幼儿园教师教学反思
2014/02/06 职场文书
2014社区三八妇女节活动总结
2014/03/01 职场文书
酒鬼酒广告词
2014/03/21 职场文书
教育基金募捐倡议书
2014/05/14 职场文书
光棍节联谊晚会活动策划书
2014/10/10 职场文书
无房产证房屋转让协议书合同样本
2014/10/18 职场文书
幼儿园综治宣传月活动总结
2015/05/07 职场文书
浅谈python数据类型及其操作
2021/05/25 Python
SQL实现LeetCode(176.第二高薪水)
2021/08/04 MySQL