编程 Python

python爬取代理IP并进行有效的IP测试实现

Posted in Python onOctober 09, 2020

爬取代理IP及测试是否可用

很多人在爬虫时为了防止被封IP，所以就会去各大网站上查找免费的代理IP，由于不是每个IP地址都是有效的，如果要进去一个一个比对的话效率太低了，我也遇到了这种情况，所以就直接尝试了一下去网站爬取免费的代理IP，并且逐一的测试，最后将有效的IP进行返回。

在这里我选择的是89免费代理IP网站进行爬取，并且每一个IP都进行比对测试，最后会将可用的IP进行另存放为一个列表

https://www.89ip.cn/

python爬取代理IP并进行有效的IP测试实现

一、准备工作

导入包并且设置头标签

import requests
from bs4 import BeautifulSoup

header = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
}

二、提取网页源码

提取网页源码返回的是整个网站的HTML

def getHtml(url):
  try:
    reponse = requests.get(url, headers=header)
    reponse.raise_for_status()
    reponse.encoding = reponse.apparent_encoding
    return reponse.text
  except:
    return "网页源码提取错误"

三、解析HTML并提取IP

函数传入的参数是HTML和存放IP地址的列表

# 解析网页，提取IP
def getIp(html, list):
  try:
    soup = BeautifulSoup(html, "html.parser")
    tr = soup.find("tbody").find_all_next("tr")
    for ip in tr:
      # 提取IP
      td = ip.find_next("td").string
      td = str(td).replace(" ", "").replace("\n", "").replace("\t", "")
      # 提取端口号
      dk = ip.find_all_next("td")[1].string
      dk = str(dk).replace(" ", "").replace("\n", "").replace("\t", "")
      # 将IP和端口号进行连接
      ip = td + ":" + dk
      list.append(ip) # 再进IP地址存放至指定列表中去
  except:
    print("获取IP失败")

四、测试IP是否可用

在这里测试IP的原理是用requests请求百度网站，并且传入代理IP，如果网站返回状态码为200那么说明此IP有效，如果出现其他情况则判断IP地址无效

# 测试出可用IP
def ip_text(list, valid_IP):
  try:
    url = "https://www.baidu.com//"
    for ip in list:
      try:
        rep = requests.get(url, proxies={'https': ip}, headers=header, timeout=0.5)
        if rep.status_code == 200: # 如果放回的状态码是200，那么说明该IP地址可用
          valid_IP.append(ip)
          print("该代理IP有效：" + ip)
        else:
          print("该代理IP无效：" + ip)
      except:
        print("该代理IP无效：" + ip)
  except:
    print("IP测试失败")

五、主函数main

主函数中主要负责调用函数和自定义页数指定生成URL，并且在程序结束前会输出有效IP地址

if __name__ == '__main__':

  valid_IP = [] # 有效IP地址
  for i in range(1, 90): # 可自定义页数
    ip_list = [] # 存放所有爬取到的ip
    url = "https://www.89ip.cn/index_" + str(i) + ".html"
    print(url)
    html = getHtml(url)
    getIp(html, ip_list)
    ip_text(ip_list, valid_IP)

  print("=" * 30)
  print("测试完成，有效IP如下:")
  print("-" * 30)
  for a in valid_IP:
    print(a)
  print("=" * 30)

代码整体框架已经结束完毕了，最后把所有代码呈现出了

完整代码

# -*- coding: utf-8 -*-
# Author : YRH
# Data : 2020/10/07
# Project : 爬取代理IP并且测试可用IP
# Tool : PyCharm

import requests
from bs4 import BeautifulSoup

header = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
}


# 提取网页源码
def getHtml(url):
  try:
    reponse = requests.get(url, headers=header)
    reponse.raise_for_status()
    reponse.encoding = reponse.apparent_encoding
    return reponse.text
  except:
    return "网页源码提取错误"


# 解析网页，提取IP
def getIp(html, list):
  try:
    soup = BeautifulSoup(html, "html.parser")
    tr = soup.find("tbody").find_all_next("tr")
    for ip in tr:
      # 提取IP
      td = ip.find_next("td").string
      td = str(td).replace(" ", "").replace("\n", "").replace("\t", "")
      # 提取端口号
      dk = ip.find_all_next("td")[1].string
      dk = str(dk).replace(" ", "").replace("\n", "").replace("\t", "")
      # 将IP和端口号进行连接
      ip = td + ":" + dk
      list.append(ip) # 再进IP地址存放至指定列表中去
  except:
    print("获取IP失败")


# 测试出可用IP
def ip_text(list, valid_IP):
  try:
    url = "https://www.baidu.com//"
    for ip in list:
      try:
        rep = requests.get(url, proxies={'https': ip}, headers=header, timeout=0.5)
        if rep.status_code == 200: # 如果放回的状态码是200，那么说明该IP地址可用
          valid_IP.append(ip)
          print("该代理IP有效：" + ip)
        else:
          print("该代理IP无效：" + ip)
      except:
        print("该代理IP无效：" + ip)
  except:
    print("IP测试失败")


if __name__ == '__main__':

  valid_IP = [] # 有效IP地址
  for i in range(1, 90): # 可自定义页数
    ip_list = [] # 存放所有爬取到的ip
    url = "https://www.89ip.cn/index_" + str(i) + ".html"
    print(url)
    html = getHtml(url)
    getIp(html, ip_list)
    ip_text(ip_list, valid_IP)

  print("=" * 30)
  print("测试完成，有效IP如下:")
  print("-" * 30)
  for a in valid_IP:
    print(a)
  print("=" * 30)

到此这篇关于python爬取代理IP并进行有效的IP测试实现的文章就介绍到这了,更多相关python爬取代理IP内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬取代理IP并进行有效的IP测试实现

- Author -

Jack-yuan

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python通过索引遍历列表的方法

May 04 Python

python中numpy.zeros(np.zeros)的使用方法

Nov 07 Python

python微信跳一跳系列之自动计算跳一跳距离

Feb 26 Python

Python实现的将文件每一列写入列表功能示例【测试可用】

Mar 19 Python

[原创]Python入门教程2. 字符串基本操作【运算、格式化输出、常用函数】

Oct 29 Python

Python多线程爬取豆瓣影评API接口

Oct 22 Python

keras的siamese(孪生网络)实现案例

Jun 12 Python

Python中Selenium库使用教程详解

Jul 23 Python

PyQt5结合matplotlib绘图的实现示例

Sep 15 Python

Python return语句如何实现结果返回调用

Oct 15 Python

python 发送get请求接口详解

Nov 17 Python

Python制作表白爱心合集

Jan 22 Python

Python中Selenium模块的使用详解

Oct 09 #Python

python利用platform模块获取系统信息

Oct 09 #Python

python smtplib发送多个email联系人的实现

Oct 09 #Python

python 决策树算法的实现

Oct 09 #Python

Python+unittest+requests 接口自动化测试框架搭建教程

Oct 09 #Python

Python实现http接口自动化测试的示例代码

Oct 09 #Python

python两种注释用法的示例

Oct 09 #Python

You might like

常用表单验证类，有了这个，一般的验证就都齐了。

2006/12/06 PHP

php 需要掌握的东西不做浮躁的人

2009/12/28 PHP

让PHP COOKIE立即生效,不用刷新就可以使用

2011/03/09 PHP

PHP 事件机制(2)

2011/03/23 PHP

php使用ZipArchive提示Fatal error: Class ZipArchive not found in的解决方法

2014/11/04 PHP

PHP中使用Memache作为进程锁的操作类分享

2015/03/30 PHP

php判断/计算闰年的方法小结【三种方法】

2019/07/06 PHP

javascript下判断一个元素是否存在的代码

2010/03/05 Javascript

Javascript排序算法之计数排序的实例

2014/04/05 Javascript

微信小程序自定义对话框实例详解

2017/01/20 Javascript

浅谈vue单一组件下动态修改数据时的全部重渲染

2018/03/01 Javascript

vue中v-for加载本地静态图片方法

2018/03/03 Javascript

vue使用laydate时间插件的方法

2018/11/14 Javascript

elementUI 动态生成几行几列的方法示例

2019/07/11 Javascript

vue导航栏部分的动态渲染实例

2019/11/01 Javascript

vuex页面刷新导致数据丢失的解决方案

2020/12/10 Vue.js

python通过定义一个类实例作为ftp回调方法

2015/05/04 Python

urllib和BeautifulSoup爬取维基百科的词条简单实例

2018/01/17 Python

Python获取航线信息并且制作成图的讲解

2019/01/03 Python

解决win7操作系统Python3.7.1安装后启动提示缺少.dll文件问题

2019/07/15 Python

python实现tail实时查看服务器日志示例

2019/12/24 Python

Pytorch Tensor的统计属性实例讲解

2019/12/30 Python

python程序文件扩展名知识点详解

2020/02/27 Python

通过Python实现一个简单的html页面

2020/05/16 Python

keras实现调用自己训练的模型,并去掉全连接层

2020/06/09 Python

德国最大的婴儿用品网上商店：Kidsroom.de（支持中文）

2020/09/02 全球购物

资深地理教师自我评价

2013/09/21 职场文书

企业门卫岗位职责

2013/12/12 职场文书

警察思想汇报

2014/01/04 职场文书

单位单身证明样本

2014/10/11 职场文书

2015年收银员个人工作总结

2015/04/01 职场文书

创业项目（超低成本创业项目）

2019/08/16 职场文书

XX部保密工作制度范本

2019/08/27 职场文书

python基础学习之递归函数知识总结

2021/05/26 Python

Python还能这么玩之只用30行代码从excel提取个人值班表

2021/06/05 Python

OpenCV-Python实现轮廓的特征值

2021/06/09 Python