Python爬虫抓取代理IP并检验可用性的实例


Posted in Python onMay 07, 2018

经常写爬虫,难免会遇到ip被目标网站屏蔽的情况,银次一个ip肯定不够用,作为节约的程序猿,能不花钱就不花钱,那就自己去找吧,这次就写了下抓取 西刺代理上的ip,但是这个网站也反爬!!!

至于如何应对,我觉得可以通过增加延时试试,可能是我抓取的太频繁了,所以被封IP了。

但是,还是可以去IP巴士试试的,条条大路通罗马嘛,不能吊死在一棵树上。

不废话,上代码。

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
import time
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
 #'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
 'Accept-Encoding':'en-us',
 'Connection':'keep-alive',
 'Referer':'http://www.baidu.com/'
 }
req_timeout = 5
testUrl = "http://www.baidu.com/"
testStr = "wahaha"
file1 = open('proxy.txt' , 'w')
# url = ""
# req = urllib2.Request(url,None,req_header)
# jsondatas = urllib2.urlopen(req,None,req_timeout).read()
cookies = urllib2.HTTPCookieProcessor()
checked_num = 0
grasp_num = 0
for page in range(1, 160):
 req = urllib2.Request('http://www.xici.net.co/nn/' + str(page), None, req_header)
 html_doc = urllib2.urlopen(req, None, req_timeout).read()
 # html_doc = urllib2.urlopen('http://www.xici.net.co/nn/' + str(page)).read()
 soup = BeautifulSoup(html_doc)
 trs = soup.find('table', id='ip_list').find_all('tr')
 for tr in trs[1:]:
  tds = tr.find_all('td')
  ip = tds[1].text.strip()
  port = tds[2].text.strip()
  protocol = tds[5].text.strip()
  if protocol == 'HTTP' or protocol == 'HTTPS':
   #of.write('%s=%s:%s\n' % (protocol, ip, port))
   print '%s=%s:%s' % (protocol, ip, port)
   grasp_num +=1
   proxyHandler = urllib2.ProxyHandler({"http": r'http://%s:%s' % (ip, port)})
   opener = urllib2.build_opener(cookies, proxyHandler)
   opener.addheaders = [('User-Agent',
         'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
   t1 = time.time()
   try:
    req = opener.open(testUrl, timeout=req_timeout)
    result = req.read()
    timeused = time.time() - t1
    pos = result.find(testStr)
    if pos > 1:
     file1.write(protocol+"\t"+ip+"\t"+port+"\n")
     checked_num+=1
     print checked_num, grasp_num
    else:
     continue
   except Exception,e:
    continue
file1.close()
print checked_num,grasp_num

个人感觉代码里没有太复杂的,就没有加注释,相信大家基本可以理解,如有问题也请多批评指正,共同进步!

以上这篇Python爬虫抓取代理IP并检验可用性的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
CentOS中升级Python版本的方法详解
Jul 10 Python
Python网络编程之TCP与UDP协议套接字用法示例
Feb 02 Python
Flask之flask-script模块使用
Jul 26 Python
python爬取微信公众号文章
Aug 31 Python
Python模块、包(Package)概念与用法分析
May 31 Python
Python 3.6打包成EXE可执行程序的实现
Oct 18 Python
python数据预处理方式 :数据降维
Feb 24 Python
Python3 io文本及原始流I/O工具用法详解
Mar 23 Python
如何写python的配置文件
Jun 07 Python
python脚本和网页有何区别
Jul 02 Python
如何解决flask修改静态资源后缓存文件不能及时更改问题
Aug 02 Python
python 实现波浪滤镜特效
Dec 02 Python
Python视频爬虫实现下载头条视频功能示例
May 07 #Python
十分钟利用Python制作属于你自己的个性logo
May 07 #Python
Redis使用watch完成秒杀抢购功能的代码
May 07 #Python
Python文本统计功能之西游记用字统计操作示例
May 07 #Python
Python中的函数作用域
May 07 #Python
Php多进程实现代码
May 07 #Python
Python格式化输出%s和%d
May 07 #Python
You might like
php下删除字符串中HTML标签的函数
2008/08/27 PHP
php程序之die调试法 快速解决错误
2009/09/17 PHP
利用PHP实现图片等比例放大和缩小的方法详解
2013/06/06 PHP
浅析php header 跳转
2013/06/17 PHP
CodeIgniter视图使用注意事项
2016/01/20 PHP
phpinfo的知识点总结
2019/10/10 PHP
ExtJS 2.2.1的grid控件在ie6中的显示问题
2009/05/04 Javascript
jquery photoFrame 图片边框美化显示插件
2010/06/28 Javascript
正则表达式搭配js轻松处理json文本方便而老古
2013/02/17 Javascript
使用javascript实现页面定时跳转总结篇
2013/09/21 Javascript
JS判断客户端是手机还是PC的2个代码
2014/04/12 Javascript
javascript实现回车键提交表单方法总结
2015/01/10 Javascript
Jquery 实现弹出层插件
2015/01/28 Javascript
JQuery的常用选择器、过滤器、方法全面介绍
2016/05/25 Javascript
浅谈node中的exports与module.exports的关系
2017/08/01 Javascript
Angular2+如何去除url中的#号详解
2017/12/20 Javascript
react写一个select组件的实现代码
2019/04/03 Javascript
微信小程序绘制半圆(弧形)进度条
2020/11/18 Javascript
python 字符串格式化代码
2013/03/17 Python
对Python进行数据分析_关于Package的安装问题
2017/05/22 Python
对python中Matplotlib的坐标轴的坐标区间的设定实例讲解
2018/05/25 Python
Python简单实现网页内容抓取功能示例
2018/06/07 Python
Python设计模式之迭代器模式原理与用法实例分析
2019/01/10 Python
python绘制无向图度分布曲线示例
2019/11/22 Python
Python3和PyCharm安装与环境配置【图文教程】
2020/02/14 Python
python字典按照value排序方法
2020/12/28 Python
CSS3 仿微信聊天小气泡实例代码
2017/04/05 HTML / CSS
C#里面可以避免一个类被其他类继承么?如何?
2013/09/26 面试题
国际贸易毕业生求职信
2014/07/20 职场文书
2014年无财产无子女离婚协议书范本
2014/10/09 职场文书
教育实习指导教师评语
2014/12/31 职场文书
公司介绍信范文
2015/01/31 职场文书
postgresql无序uuid性能测试及对数据库的影响
2021/06/11 PostgreSQL
手写实现JS中的new
2021/11/07 Javascript
零基础学java之带返回值的方法的定义和调用
2022/04/10 Java/Android
Python内置类型集合set和frozenset的使用详解
2022/04/26 Python