python 爬虫 批量获取代理ip的实例代码


Posted in Python onMay 22, 2018

实例如下所示:

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python网站验证码识别
Jan 25 Python
python实现远程通过网络邮件控制计算机重启或关机
Feb 22 Python
Python 十六进制整数与ASCii编码字符串相互转换方法
Jul 09 Python
Python发送邮件测试报告操作实例详解
Dec 08 Python
对python实现模板生成脚本的方法详解
Jan 30 Python
python批量修改文件夹及其子文件夹下的文件内容
Mar 15 Python
python实现实时视频流播放代码实例
Jan 11 Python
对Tensorflow中tensorboard日志的生成与显示详解
Feb 04 Python
python标准库sys和OS的函数使用方法与实例详解
Feb 12 Python
OpenCV 使用imread()函数读取图片的六种正确姿势
Jul 09 Python
matplotlib.pyplot.plot()参数使用详解
Jul 28 Python
我对PyTorch dataloader里的shuffle=True的理解
May 20 Python
python 获取当天每个准点时间戳的实例
May 22 #Python
selenium+python 去除启动的黑色cmd窗口方法
May 22 #Python
python3实现163邮箱SMTP发送邮件
May 22 #Python
django请求返回不同的类型图片json,xml,html的实例
May 22 #Python
Django使用HttpResponse返回图片并显示的方法
May 22 #Python
python实现最长公共子序列
May 22 #Python
使用python存储网页上的图片实例
May 22 #Python
You might like
重料打造自己的“宝马”---第三代
2021/03/02 无线电
PHP5中MVC结构学习
2006/10/09 PHP
php GD绘制24小时柱状图
2008/06/28 PHP
discuz7 phpMysql操作类
2009/06/21 PHP
解析php利用正则表达式解决采集内容排版的问题
2013/06/20 PHP
基于laravel制作APP接口(API)
2016/03/15 PHP
让ThinkPHP的模板引擎达到最佳效率的方法详解
2017/03/14 PHP
JavaScript调用堆栈及setTimeout使用方法深入剖析
2013/02/16 Javascript
jQuery列表拖动排列具体实现
2013/11/04 Javascript
将HTML格式的String转化为HTMLElement的实现方法
2014/08/07 Javascript
mvvm双向绑定机制的原理和实现代码(推荐)
2016/06/07 Javascript
js智能获取浏览器版本UA信息的方法
2016/08/08 Javascript
nodejs实现发出蜂鸣声音(系统报警声)的方法
2017/01/18 NodeJs
canvas实现图片根据滑块放大缩小效果
2017/02/24 Javascript
JS实现AES加密并与PHP互通的方法分析
2017/04/19 Javascript
vue2.0的虚拟DOM渲染思路分析
2018/08/09 Javascript
Vue CLI2升级至Vue CLI3的方法步骤
2019/05/20 Javascript
浅谈一个webpack构建速度优化误区
2019/06/24 Javascript
JavaScript使用百度ECharts插件绘制饼图操作示例
2019/11/26 Javascript
[01:11:32]VG vs FNATIC 2019国际邀请赛小组赛 BO2 第二场 8.15
2019/08/17 DOTA
[45:16]完美世界DOTA2联赛循环赛 IO vs FTD BO2第二场 11.05
2020/11/06 DOTA
flask中主动抛出异常及统一异常处理代码示例
2018/01/18 Python
python 重定向获取真实url的方法
2018/05/11 Python
Django项目中添加ldap登陆认证功能的实现
2019/04/04 Python
Python学习笔记之pandas索引列、过滤、分组、求和功能示例
2019/06/03 Python
详解pytorch 0.4.0迁移指南
2019/06/16 Python
解决pycharm remote deployment 配置的问题
2019/06/27 Python
Python环境Pillow( PIL )图像处理工具使用解析
2019/09/12 Python
python飞机大战 pygame游戏创建快速入门详解
2019/12/17 Python
python 对任意数据和曲线进行拟合并求出函数表达式的三种解决方案
2020/02/18 Python
CSS3实现可翻转的hover效果
2018/05/23 HTML / CSS
怎样客观的做好自我评价
2013/12/28 职场文书
廉洁校园实施方案
2014/05/25 职场文书
2014年基层党支部工作总结
2014/12/04 职场文书
军事博物馆观后感
2015/06/05 职场文书
2019年亲子运动会口号
2019/10/11 职场文书