python 爬虫 批量获取代理ip的实例代码


Posted in Python onMay 22, 2018

实例如下所示:

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python相似模块用例
Mar 04 Python
Python协程的用法和例子详解
Sep 09 Python
Python Pandas找到缺失值的位置方法
Apr 12 Python
Python将文本去空格并保存到txt文件中的实例
Jul 24 Python
实例讲解python中的协程
Oct 08 Python
把pandas转换int型为str型的方法
Jan 29 Python
django多对多表的创建,级联删除及手动创建第三张表
Jul 25 Python
Django项目之Elasticsearch搜索引擎的实例
Aug 21 Python
python GUI库图形界面开发之PyQt5控件QTableWidget详细使用方法与属性
Feb 25 Python
浅谈python 中的 type(), dtype(), astype()的区别
Apr 09 Python
用python打开摄像头并把图像传回qq邮箱(Pyinstaller打包)
May 17 Python
python爬虫scrapy基于CrawlSpider类的全站数据爬取示例解析
Feb 20 Python
python 获取当天每个准点时间戳的实例
May 22 #Python
selenium+python 去除启动的黑色cmd窗口方法
May 22 #Python
python3实现163邮箱SMTP发送邮件
May 22 #Python
django请求返回不同的类型图片json,xml,html的实例
May 22 #Python
Django使用HttpResponse返回图片并显示的方法
May 22 #Python
python实现最长公共子序列
May 22 #Python
使用python存储网页上的图片实例
May 22 #Python
You might like
PHP实现的方程求解示例分析
2016/11/11 PHP
js将iframe中控件的值传到主页面控件中的实现方法
2013/03/11 Javascript
javascript实现节点(div)名称编辑
2014/12/17 Javascript
JavaScript之Object类型介绍
2015/04/01 Javascript
jQuery插件slides实现无缝轮播图特效
2015/04/17 Javascript
使用AngularJS创建自定义的过滤器的方法
2015/06/18 Javascript
超赞的动手创建JavaScript框架的详细教程
2015/06/30 Javascript
javascript实现无缝上下滚动特效
2015/12/16 Javascript
基于javascript实现动态时钟效果
2020/08/18 Javascript
AngularJS 遇到的小坑与技巧小结
2016/06/07 Javascript
原生js实现tab选项卡切换
2020/03/23 Javascript
JavaScript重定向URL参数的两种方法小结
2016/10/19 Javascript
js实现旋转木马效果
2017/03/17 Javascript
H5+C3+JS实现五子棋游戏(AI篇)
2020/05/28 Javascript
微信小程序自定义导航栏实例代码
2019/04/05 Javascript
JavaScript从原型到原型链深入理解
2019/06/03 Javascript
javascript 关于赋值、浅拷贝、深拷贝的个人理解
2019/11/01 Javascript
分享8个JavaScript库可更好地处理本地存储
2020/10/12 Javascript
python将xml xsl文件生成html文件存储示例讲解
2013/12/03 Python
浅谈Pycharm调用同级目录下的py脚本bug
2018/12/03 Python
pyqt5 使用label控件实时显示时间的实例
2019/06/14 Python
Python3 使用selenium插件爬取苏宁商家联系电话
2019/12/23 Python
python构造IP报文实例
2020/05/05 Python
浅谈Python xlwings 读取Excel文件的正确姿势
2021/02/26 Python
东南亚地区最大的购物网站Lazada新加坡站点:Lazada.sg
2016/07/17 全球购物
YSL Beauty加拿大官方商城:圣罗兰美妆加拿大
2017/05/15 全球购物
请介绍一下WSDL的文档结构
2013/03/17 面试题
javascript实现用户必须勾选协议实例讲解
2021/03/24 Javascript
销售行政专员岗位职责
2014/06/10 职场文书
欢迎标语大全
2014/06/21 职场文书
学生个人总结范文
2015/02/15 职场文书
法院个人总结
2015/03/03 职场文书
小学音乐课歌曲《堆雪人》教学反思
2016/02/18 职场文书
apache基于端口创建虚拟主机的示例
2021/04/22 Servers
Python Django 后台管理之后台模型属性详解
2021/04/25 Python
GPU服务器的多用户配置方法
2022/07/07 Servers