编程 Python

Python搭建代理IP池实现获取IP的方法

Posted in Python onOctober 27, 2019

使用爬虫时，大部分网站都有一定的反爬措施，有些网站会限制每个 IP 的访问速度或访问次数，超出了它的限制你的 IP 就会被封掉。对于访问速度的处理比较简单，只要间隔一段时间爬取一次就行了，避免频繁访问；而对于访问次数，就需要使用代理 IP 来帮忙了，使用多个代理 IP 轮换着去访问目标网址可以有效地解决问题。

目前网上有很多的代理服务网站提供代理服务，也提供一些免费的代理，但可用性较差，如果需求较高可以购买付费代理，可用性较好。

因此我们可以自己构建代理池，从各种代理服务网站中获取代理 IP，并检测其可用性（使用一个稳定的网址来检测，最好是自己将要爬取的网站），再保存到数据库中，需要使用的时候再调用。

代码地址：https://github.com/Stevengz/Proxy_pool

另外三篇：
Python搭建代理IP池（二）- 存储 IP
Python搭建代理IP池（三）- 检测 IP
Python搭建代理IP池（四）- 接口设置与整体调度

本文介绍的则是构建代理 IP 池的第一步：获取 IP

使用的库：requests、pyquery

几个能提供免费代理的代理服务网站（排名不分先后）：

厂商名称	地址
66代理	http://www.66ip.cn/
西刺代理	https://www.xicidaili.com
全网代理	http://www.goubanjia.com
云代理	http://www.ip3366.net
IP海	http://www.iphai.com
快代理	https://www.kuaidaili.com
免费代理IP库	http://ip.jiangxianli.com

代理服务网站 Crawler

代理获取的相关代码，把从每个网站提取 IP 的方法都放到一起，然后运行时只要调用相关方法即可

为了实现灵活，将获取代理的一个个方法统一定义一个规范，如统一定义以 crawl 开头，这样扩展的时候只需要添加 crawl 开头的方法即可

在这里实现了几个示例，如抓取代理 66、西刺代理、云代理、快代理四个免费代理网站，这些方法都定义成生成器，通过 yield 返回。首先将网页获取，然后用 PyQuery 解析，解析出 IP 加端口形式的代理再返回

crawler.py

import json
import re
from utils import get_page
from pyquery import PyQuery as pq

# 元类
class ProxyMetaclass(type):
 def __new__(cls, name, bases, attrs):
  count = 0
  attrs['__CrawlFunc__'] = []
  for k, v in attrs.items():
   if 'crawl_' in k:
    attrs['__CrawlFunc__'].append(k)
    count += 1
  attrs['__CrawlFuncCount__'] = count
  return type.__new__(cls, name, bases, attrs)

class Crawler(object, metaclass=ProxyMetaclass):
 def get_proxies(self, callback):
  proxies = []
  for proxy in eval("self.{}()".format(callback)):
   print('成功获取到代理', proxy)
   proxies.append(proxy)
  return proxies

 def crawl_daili66(self, page_count=4):
  start_url = 'http://www.66ip.cn/{}.html'
  urls = [start_url.format(page) for page in range(1, page_count + 1)]
  for url in urls:
   print('Crawling', url)
   html = get_page(url)
   if html:
    doc = pq(html)
    trs = doc('.containerbox table tr:gt(0)').items()
    for tr in trs:
     ip = tr.find('td:nth-child(1)').text()
     port = tr.find('td:nth-child(2)').text()
     yield ':'.join([ip, port])

 def crawl_xicidaili(self):
  for i in range(1, 3):
   start_url = 'http://www.xicidaili.com/nn/{}'.format(i)
   headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Host':'www.xicidaili.com',
    'Referer':'http://www.xicidaili.com/nn/3',
    'Upgrade-Insecure-Requests':'1',
   }
   html = get_page(start_url, options=headers)
   if html:
    find_trs = re.compile('<tr class.*?>(.*?)</tr>', re.S)
    trs = find_trs.findall(html)
    for tr in trs:
     find_ip = re.compile('<td>(\d+\.\d+\.\d+\.\d+)</td>') 
     re_ip_address = find_ip.findall(tr)
     find_port = re.compile('<td>(\d+)</td>')
     re_port = find_port.findall(tr)
     for address,port in zip(re_ip_address, re_port):
      address_port = address+':'+port
      yield address_port.replace(' ','')

 def crawl_ip3366(self):
  for i in range(1, 4):
   start_url = 'http://www.ip3366.net/?stype=1&page={}'.format(i)
   html = get_page(start_url)
   if html:
    find_tr = re.compile('<tr>(.*?)</tr>', re.S)
    trs = find_tr.findall(html)
    for s in range(1, len(trs)):
     find_ip = re.compile('<td>(\d+\.\d+\.\d+\.\d+)</td>')
     re_ip_address = find_ip.findall(trs[s])
     find_port = re.compile('<td>(\d+)</td>')
     re_port = find_port.findall(trs[s])
     for address,port in zip(re_ip_address, re_port):
      address_port = address+':'+port
      yield address_port.replace(' ','')

 def crawl_kuaidaili(self):
  for i in range(1, 4):
   start_url = 'http://www.kuaidaili.com/free/inha/{}/'.format(i)
   html = get_page(start_url)
   if html:
    ip_address = re.compile('<td data-title="IP">(.*?)</td>') 
    re_ip_address = ip_address.findall(html)
    port = re.compile('<td data-title="PORT">(.*?)</td>')
    re_port = port.findall(html)
    for address,port in zip(re_ip_address, re_port):
     address_port = address+':'+port
     yield address_port.replace(' ','')

定义了一个 ProxyMetaclass，Crawl 类将它设置为元类，元类中实现了 new() 方法，遍历 attrs 变量即可获取类的所有方法信息，判断方法名前面是否是 crawl，是则将其加入到 CrawlFunc 属性中

代理网站的添加非常灵活，不仅可以添加免费代理，也可以添加付费代理，一些付费代理的提取方式类似，也通过 Web 的形式获取再进行解析，解析方式可能更加简单，如解析纯文本或 Json，解析之后以同样的方式返回，可以自行扩展

utils.py

import requests
from requests.exceptions import ConnectionError

base_headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
 'Accept-Encoding': 'gzip, deflate, sdch',
 'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}

def get_page(url, options={}):

 headers = dict(base_headers, **options)
 print('正在抓取', url)
 try:
  response = requests.get(url, headers=headers)
  print('抓取成功', url, response.status_code)
  if response.status_code == 200:
   return response.text
 except ConnectionError:
  print('抓取失败', url)
  return None

抓取网页内容的方法，访问链接成功后返回整个网页 HTML 内容，便于后续对网页具体内容的提取。封装成一个方法，让上面的 crawler 在抓取各个网站时调用

进行抓取

getter.py

from crawler import Crawler
from setting import *
import sys

class Getter():
 def __init__(self):
  self.crawler = Crawler()
 
 def run(self):
  print('获取器开始执行')
  for callback_label in range(self.crawler.__CrawlFuncCount__):
   callback = self.crawler.__CrawlFunc__[callback_label]
   # 获取代理
   all_ip = self.crawler.get_proxies(callback)

if __name__ == '__main__':
 get = Getter()
 get.run()

运行结果：

Python搭建代理IP池实现获取IP的方法

网站上的免费 IP 就被成功抓取下来了，至于能不能用，就有待验证了

整个过程其实就是一个普通的爬虫，而且没什么反爬措施，能到用代理 IP 的地步，代码里面的访问、抓取部分的细节应该都看得懂

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python搭建代理IP池实现获取IP的方法

- Author -

Steven·简谈

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python的批量远程管理和部署工具Fabric用法实例

Jan 23 Python

Android 兼容性问题：java.lang.UnsupportedOperationException解决办法

Mar 19 Python

Windows 64位下python3安装nltk模块

Sep 19 Python

Python实现简单的用户交互方法详解

Sep 25 Python

python3实现从kafka获取数据,并解析为json格式,写入到mysql中

Dec 23 Python

在Django中预防CSRF攻击的操作

Mar 13 Python

python except异常处理之后不退出,解决异常继续执行的实现

Apr 25 Python

Python如何读写字节数据

Aug 05 Python

python实现在列表中查找某个元素的下标示例

Nov 16 Python

最新版 Windows10上安装Python 3.8.5的步骤详解

Nov 28 Python

解决PDF 转图片时丢文字的一种可能方式

Mar 04 Python

python基础入门之普通操作与函数（三）

Jun 13 Python

详解python statistics模块及函数用法

Oct 27 #Python

在 Jupyter 中重新导入特定的 Python 文件(场景分析)

Oct 27 #Python

python自动结束mysql慢查询会话的实例代码

Oct 27 #Python

python实现输入任意一个大写字母生成金字塔的示例

Oct 27 #Python

python 爬虫百度地图的信息界面的实现方法

Oct 27 #Python

python用类实现文章敏感词的过滤方法示例

Oct 27 #Python

通过字符串导入 Python 模块的方法详解

Oct 27 #Python

You might like

两种php实现图片上传的方法

2016/01/22 PHP

PHP实现简易图形计算器

2020/08/28 PHP

php慢查询日志和错误日志使用详解

2021/02/27 PHP

JavaScript 动态生成方法的例子

2009/07/22 Javascript

IE6下JS动态设置图片src地址问题

2010/01/08 Javascript

24款非常有用的 jQuery 插件分享

2011/04/06 Javascript

基于jquery实现的移入页面上空文本框时，让它变为焦点，移出清除焦点

2011/07/26 Javascript

appendChild() 或 insertBefore()使用与区别介绍

2013/10/11 Javascript

jQuery dataTables与jQuery UI 对话框dialog的使用教程

2016/09/02 Javascript

jQuery中DOM节点删除之empty与remove

2017/01/20 Javascript

JS字符串统计操作示例【遍历,截取,输出,计算】

2017/03/27 Javascript

Vue.js使用$.ajax和vue-resource实现OAuth的注册、登录、注销和API调用

2017/05/10 Javascript

js 监控iframe URL的变化实例代码

2017/07/12 Javascript

Vue的elementUI实现自定义主题方法

2018/02/23 Javascript

Vue.use源码学习小结

2018/06/20 Javascript

Angular6 发送手机验证码按钮倒计时效果实现方法

2019/01/08 Javascript

[02:28]DOTA2亚洲邀请赛 LGD战队巡礼

2015/02/03 DOTA

Python fileinput模块使用实例

2015/06/03 Python

Python实现TCP/IP协议下的端口转发及重定向示例

2016/06/14 Python

Python信息抽取之乱码解决办法

2017/06/29 Python

django框架模板语言使用方法详解

2019/07/18 Python

Python实现socket非阻塞通讯功能示例

2019/11/06 Python

Python上下文管理器类和上下文管理器装饰器contextmanager用法实例分析

2019/11/07 Python

Python接口自动化测试框架运行原理及流程

2020/11/30 Python

利用纯CSS3实现tab选项卡切换示例代码

2016/09/21 HTML / CSS

苏格兰在线威士忌商店：The Whisky Barrel

2019/05/07 全球购物

优秀求职信范文分享

2013/12/19 职场文书

商务英语专业求职信范文

2014/01/28 职场文书

医德考评自我评价

2014/09/14 职场文书

校车安全管理责任书

2015/05/11 职场文书

2015年房产经纪人工作总结

2015/05/15 职场文书

分享：关于学习的励志名言赏析

2019/08/16 职场文书

2019年销售部季度工作计划3篇

2019/10/09 职场文书

Python 文本滚动播放器的实现代码

2021/04/25 Python

Python道路车道线检测的实现

2021/06/27 Python

教你一步步实现一个简易promise

2021/11/02 Javascript