编程 Python

Python代理IP爬虫的新手使用教程

Posted in Python onSeptember 05, 2019

前言

Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段，添加headers和ip代理可以解决很多问题。

本人自己在爬取豆瓣读书的时候,就以为爬取次数过多,直接被封了IP.后来就研究了代理IP的问题.

(当时不知道什么情况,差点心态就崩了...),下面给大家介绍一下我自己代理IP爬取数据的问题,请大家指出不足之处.

问题

这是我的IP被封了,一开始好好的,我还以为是我的代码问题了

Python代理IP爬虫的新手使用教程

思路：

从网上查找了一些关于爬虫代理IP的资料,得到下面的思路

爬取一些IP,过滤掉不可用.
在requests的请求的proxies参数加入对应的IP.
继续爬取.
收工
好吧,都是废话,理论大家都懂,上面直接上代码...

思路有了,动手起来.

运行环境

Python 3.7, Pycharm

这些需要大家直接去搭建好环境...

准备工作

爬取IP地址的网站(国内高匿代理)
校验IP地址的网站
你之前被封IP的py爬虫脚本...

上面的网址看个人的情况来选取

爬取IP的完整代码

PS:简单的使用bs4获取IP和端口号,没有啥难度,里面增加了一个过滤不可用IP的逻辑

关键地方都有注释了

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Time : 2018/11/22 
# @Author : liangk
# @Site :
# @File : auto_archive_ios.py
# @Software: PyCharm


import requests
from bs4 import BeautifulSoup
import json


class GetIp(object):
 """抓取代理IP"""

 def __init__(self):
 """初始化变量"""
 self.url = 'http://www.xicidaili.com/nn/'
 self.check_url = 'https://www.ip.cn/'
 self.ip_list = []

 @staticmethod
 def get_html(url):
 """请求html页面信息"""
 header = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
 }
 try:
  request = requests.get(url=url, headers=header)
  request.encoding = 'utf-8'
  html = request.text
  return html
 except Exception as e:
  return ''

 def get_available_ip(self, ip_address, ip_port):
 """检测IP地址是否可用"""
 header = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
 }
 ip_url_next = '://' + ip_address + ':' + ip_port
 proxies = {'http': 'http' + ip_url_next, 'https': 'https' + ip_url_next}
 try:
  r = requests.get(self.check_url, headers=header, proxies=proxies, timeout=3)
  html = r.text
 except:
  print('fail-%s' % ip_address)
 else:
  print('success-%s' % ip_address)
  soup = BeautifulSoup(html, 'lxml')
  div = soup.find(class_='well')
  if div:
  print(div.text)
  ip_info = {'address': ip_address, 'port': ip_port}
  self.ip_list.append(ip_info)

 def main(self):
 """主方法"""
 web_html = self.get_html(self.url)
 soup = BeautifulSoup(web_html, 'lxml')
 ip_list = soup.find(id='ip_list').find_all('tr')
 for ip_info in ip_list:
  td_list = ip_info.find_all('td')
  if len(td_list) > 0:
  ip_address = td_list[1].text
  ip_port = td_list[2].text
  # 检测IP地址是否有效
  self.get_available_ip(ip_address, ip_port)
 # 写入有效文件
 with open('ip.txt', 'w') as file:
  json.dump(self.ip_list, file)
 print(self.ip_list)


# 程序主入口
if __name__ == '__main__':
 get_ip = GetIp()
 get_ip.main()

使用方法完整代码

PS: 主要是通过使用随机的IP来爬取,根据request_status来判断这个IP是否可以用.

为什么要这样判断?

主要是虽然上面经过了过滤,但是不代表在你爬取的时候是可以用的,所以还是得多做一个判断.

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Time : 2018/11/22 
# @Author : liangk
# @Site :
# @File : get_douban_books.py
# @Software: PyCharm

from bs4 import BeautifulSoup
import datetime
import requests
import json
import random

ip_random = -1
article_tag_list = []
article_type_list = []


def get_html(url):
 header = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'
 }
 global ip_random
 ip_rand, proxies = get_proxie(ip_random)
 print(proxies)
 try:
  request = requests.get(url=url, headers=header, proxies=proxies, timeout=3)
 except:
  request_status = 500
 else:
  request_status = request.status_code
 print(request_status)
 while request_status != 200:
  ip_random = -1
  ip_rand, proxies = get_proxie(ip_random)
  print(proxies)
  try:
   request = requests.get(url=url, headers=header, proxies=proxies, timeout=3)
  except:
   request_status = 500
  else:
   request_status = request.status_code
  print(request_status)
 ip_random = ip_rand
 request.encoding = 'gbk'
 html = request.content
 print(html)
 return html


def get_proxie(random_number):
 with open('ip.txt', 'r') as file:
  ip_list = json.load(file)
  if random_number == -1:
   random_number = random.randint(0, len(ip_list) - 1)
  ip_info = ip_list[random_number]
  ip_url_next = '://' + ip_info['address'] + ':' + ip_info['port']
  proxies = {'http': 'http' + ip_url_next, 'https': 'https' + ip_url_next}
  return random_number, proxies


# 程序主入口
if __name__ == '__main__':
 """只是爬取了书籍的第一页,按照评价排序"""
 start_time = datetime.datetime.now()
 url = 'https://book.douban.com/tag/?view=type&icn=index-sorttags-all'
 base_url = 'https://book.douban.com/tag/'
 html = get_html(url)
 soup = BeautifulSoup(html, 'lxml')
 article_tag_list = soup.find_all(class_='tag-content-wrapper')
 tagCol_list = soup.find_all(class_='tagCol')

 for table in tagCol_list:
  """ 整理分析数据 """
  sub_type_list = []
  a = table.find_all('a')
  for book_type in a:
   sub_type_list.append(book_type.text)
  article_type_list.append(sub_type_list)

 for sub in article_type_list:
  for sub1 in sub:
   title = '==============' + sub1 + '=============='
   print(title)
   print(base_url + sub1 + '?start=0' + '&type=S')
   with open('book.text', 'a', encoding='utf-8') as f:
    f.write('\n' + title + '\n')
    f.write(url + '\n')
   for start in range(0, 2):
    # (start * 20) 分页是0 20 40 这样的
    # type=S是按评价排序
    url = base_url + sub1 + '?start=%s' % (start * 20) + '&type=S'
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    li = soup.find_all(class_='subject-item')
    for div in li:
     info = div.find(class_='info').find('a')
     img = div.find(class_='pic').find('img')
     content = '书名:<%s>' % info['title'] + ' 书本图片:' + img['src'] + '\n'
     print(content)
     with open('book.text', 'a', encoding='utf-8') as f:
      f.write(content)

 end_time = datetime.datetime.now()
 print('耗时: ', (end_time - start_time).seconds)

为什么选择国内高匿代理!

Python代理IP爬虫的新手使用教程

总结

使用这样简单的代理IP,基本上就可以应付在爬爬爬着被封IP的情况了.而且没有使用自己的IP,间接的保护?!?!

大家有其他的更加快捷的方法，欢迎大家可以拿出来交流和讨论，谢谢。

好了，以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。

Python代理IP爬虫的新手使用教程

- Author -

lxiaok

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

PHP魔术方法__ISSET、__UNSET使用实例

Nov 25 Python

Python实现的最近最少使用算法

Jul 10 Python

python使用psutil模块获取系统状态

Aug 27 Python

详解python中xlrd包的安装与处理Excel表格

Dec 16 Python

python3爬取淘宝信息代码分析

Feb 10 Python

Python3导入自定义模块的三种方法详解

Apr 13 Python

Python实现判断并移除列表指定位置元素的方法

Apr 13 Python

pandas删除指定行详解

Apr 04 Python

在自动化中用python实现键盘操作的方法详解

Jul 19 Python

python-Web-flask-视图内容和模板知识点西宁街

Aug 23 Python

Django自带的加密算法及加密模块详解

Dec 03 Python

浅析python连接数据库的重要事项

Feb 22 Python

关于Python内存分配时的小秘密分享

Sep 05 #Python

python global关键字的用法详解

Sep 05 #Python

python requests证书问题解决

Sep 05 #Python

Python使用scipy模块实现一维卷积运算示例

Sep 05 #Python

Python图像处理模块ndimage用法实例分析

Sep 05 #Python

Pycharm+django2.2+python3.6+MySQL实现简单的考试报名系统

Sep 05 #Python

PyCharm搭建Spark开发环境的实现步骤

Sep 05 #Python

You might like

PHP递归算法的详细示例分析

2013/02/19 PHP

php简单实现多字节字符串翻转的方法

2015/03/31 PHP

PHP实现上传多图即时显示与即时删除的方法

2017/05/09 PHP

PHP基于GD库实现的生成图片缩略图函数示例

2017/07/05 PHP

php 字符串中是否包含指定字符串的多种方法

2018/04/12 PHP

JS小功能（button选择颜色)简单实例

2013/11/29 Javascript

基于NodeJS的前后端分离的思考与实践（五）多终端适配

2014/09/26 NodeJs

jQuery中:button选择器用法实例

2015/01/04 Javascript

jQuery Easyui实现左右布局

2016/01/26 Javascript

jQuery 中ajax异步调用的四种方式

2016/06/28 Javascript

vue中页面跳转拦截器的实现方法

2017/08/23 Javascript

springmvc接收jquery提交的数组数据代码分享

2017/10/28 jQuery

Vue.js递归组件构建树形菜单

2017/12/24 Javascript

Vue中的v-for指令不起效果的解决方法

2018/09/27 Javascript

微信小程序开发常见问题及解决方案

2019/07/11 Javascript

Vue项目中如何使用Axios封装http请求详解

2019/10/23 Javascript

JavaScript手写数组的常用函数总结

2020/11/22 Javascript

解析Mac OS下部署Pyhton的Django框架项目的过程

2016/05/03 Python

Python创建对称矩阵的方法示例【基于numpy模块】

2017/10/12 Python

Pipenv一键搭建python虚拟环境的方法

2018/05/22 Python

Django中多种重定向方法使用详解

2019/07/17 Python

python plotly画柱状图代码实例

2019/12/13 Python

python如何实现DES加密

2020/09/21 Python

css背景图片的背景裁切、背景透明度、背景变换等效果运用

2012/12/24 HTML / CSS

IE支持HTML5的解决方法

2009/10/20 HTML / CSS

万宝龙英国官网：Montblanc手表、书写工具、皮革和珠宝

2018/10/16 全球购物

卡拉威高尔夫官方网站：Callaway Golf

2020/09/16 全球购物

采购部岗位职责

2013/11/24 职场文书

粗加工管理制度

2014/02/04 职场文书

《两个铁球同时着地》教学反思

2014/02/13 职场文书

党员大会主持词

2014/04/02 职场文书

企业安全生产责任书

2014/04/14 职场文书

辞职信如何写

2015/02/27 职场文书

2015年乡镇科普工作总结

2015/05/13 职场文书

工作转正自我鉴定范文

2019/06/21 职场文书

详解Python牛顿插值法

2021/05/11 Python