python 爬虫 批量获取代理ip的实例代码


Posted in Python onMay 22, 2018

实例如下所示:

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python functools模块学习总结
May 09 Python
Python 专题三 字符串的基础知识
Mar 19 Python
python 统计代码行数简单实例
May 04 Python
详解tensorflow实现迁移学习实例
Feb 10 Python
将Python字符串生成PDF的实例代码详解
May 17 Python
Python实现的服务器示例小结【单进程、多进程、多线程、非阻塞式】
May 23 Python
Django实现CAS+OAuth2的方法示例
Oct 30 Python
python连接打印机实现打印文档、图片、pdf文件等功能
Feb 07 Python
Python实现自动访问网页的例子
Feb 21 Python
解决Django no such table: django_session的问题
Apr 07 Python
Python脚本调试工具安装过程
Jan 11 Python
Python图片验证码降噪和8邻域降噪
Aug 30 Python
python 获取当天每个准点时间戳的实例
May 22 #Python
selenium+python 去除启动的黑色cmd窗口方法
May 22 #Python
python3实现163邮箱SMTP发送邮件
May 22 #Python
django请求返回不同的类型图片json,xml,html的实例
May 22 #Python
Django使用HttpResponse返回图片并显示的方法
May 22 #Python
python实现最长公共子序列
May 22 #Python
使用python存储网页上的图片实例
May 22 #Python
You might like
用php来改写404错误页让你的页面更友好
2013/01/24 PHP
php中关于socket的系列函数总结
2015/05/18 PHP
PHP通过API获取手机号码归属地
2015/05/28 PHP
Smarty3配置及入门语法
2017/02/22 PHP
PhpStorm本地断点调试的方法步骤
2018/05/21 PHP
Laravel等框架模型关联的可用性浅析
2019/12/15 PHP
$()JS小技巧
2007/07/21 Javascript
javascript 动态参数判空操作
2008/12/22 Javascript
jQuery autocomplate 自扩展插件、自动完成示例代码
2011/03/28 Javascript
js 获取坐标 通过JS得到当前焦点(鼠标)的坐标属性
2013/01/04 Javascript
JavaScript实现自己的DOM选择器原理及代码
2013/03/04 Javascript
Javascript中 关于prototype属性实现继承的原理图
2013/04/16 Javascript
js获取隐藏元素宽高的实现方法
2016/05/19 Javascript
JavaScript中windows.open()、windows.close()方法详解
2016/07/28 Javascript
微信公众号 客服接口的开发实例详解
2016/09/28 Javascript
vue2 如何实现div contenteditable=“true”(类似于v-model)的效果
2017/02/08 Javascript
JavaScript实现QQ聊天消息展示和评论提交功能
2017/05/22 Javascript
通过学习bootstrop导航条学会修改bootstrop颜色基调
2017/06/11 Javascript
js判断文件类型大小并给出提示的实现方法
2018/01/03 Javascript
Vuex提升学习篇
2018/01/11 Javascript
微信小程序MUI侧滑导航菜单示例(Popup弹出式,左侧不动,右侧滑动)
2019/01/23 Javascript
el-select数据过多懒加载的解决(loadmore)
2019/05/29 Javascript
koa2服务端使用jwt进行鉴权及路由权限分发的流程分析
2019/07/22 Javascript
解决vue组件没显示,没起作用,没报错,但该显示的组件没显示问题
2020/09/02 Javascript
在Vue中使用Viser说明(基于AntV-G2可视化引擎)
2020/10/28 Javascript
Python中的字符串替换操作示例
2016/06/27 Python
pygame实现弹力球及其变速效果
2017/07/03 Python
100行Python代码实现自动抢火车票(附源码)
2018/01/11 Python
解决seaborn在pycharm中绘图不出图的问题
2018/05/24 Python
pandas 小数位数 精度的处理方法
2018/06/09 Python
python读取目录下所有的jpg文件,并显示第一张图片的示例
2019/06/13 Python
python turtle 绘制太极图的实例
2019/12/18 Python
python+selenium 脚本实现每天自动登记的思路详解
2020/03/11 Python
详解如何在pyqt中通过OpenCV实现对窗口的透视变换
2020/09/20 Python
历史学专业个人的自我评价
2013/10/13 职场文书
诚实守信演讲稿
2014/09/01 职场文书