Python urllib、urllib2、httplib抓取网页代码实例


Posted in Python onMay 09, 2015

使用urllib2,太强大了
试了下用代理登陆拉取cookie,跳转抓图片......
文档:http://docs.python.org/library/urllib2.html

直接上demo代码了
包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理

#!/usr/bin/python
# -*- coding:utf-8 -*-
# urllib2_test.py
# author: wklken
# 2012-03-17 wklken@yeah.net


import urllib,urllib2,cookielib,socket

url = "http://www.testurl....." #change yourself
#最简单方式
def use_urllib2():
 try:
  f = urllib2.urlopen(url, timeout=5).read()
 except urllib2.URLError, e:
  print e.reason
 print len(f)

#使用Request
def get_request():
 #可以设置超时
 socket.setdefaulttimeout(5)
 #可以加入参数 [无参数,使用get,以下这种方式,使用post]
 params = {"wd":"a","b":"2"}
 #可以加入请求头信息,以便识别
 i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",
       "Accept": "text/plain"}
 #use post,have some params post to server,if not support ,will throw exception
 #req = urllib2.Request(url, data=urllib.urlencode(params), headers=i_headers)
 req = urllib2.Request(url, headers=i_headers)

 #创建request后,还可以进行其他添加,若是key重复,后者生效
 #request.add_header('Accept','application/json')
 #可以指定提交方式
 #request.get_method = lambda: 'PUT'
 try:
  page = urllib2.urlopen(req)
  print len(page.read())
  #like get
  #url_params = urllib.urlencode({"a":"1", "b":"2"})
  #final_url = url + "?" + url_params
  #print final_url
  #data = urllib2.urlopen(final_url).read()
  #print "Method:get ", len(data)
 except urllib2.HTTPError, e:
  print "Error Code:", e.code
 except urllib2.URLError, e:
  print "Error Reason:", e.reason

def use_proxy():
 enable_proxy = False
 proxy_handler = urllib2.ProxyHandler({"http":"http://proxyurlXXXX.com:8080"})
 null_proxy_handler = urllib2.ProxyHandler({})
 if enable_proxy:
  opener = urllib2.build_opener(proxy_handler, urllib2.HTTPHandler)
 else:
  opener = urllib2.build_opener(null_proxy_handler, urllib2.HTTPHandler)
 #此句设置urllib2的全局opener
 urllib2.install_opener(opener)
 content = urllib2.urlopen(url).read()
 print "proxy len:",len(content)

class NoExceptionCookieProcesser(urllib2.HTTPCookieProcessor):
 def http_error_403(self, req, fp, code, msg, hdrs):
  return fp
 def http_error_400(self, req, fp, code, msg, hdrs):
  return fp
 def http_error_500(self, req, fp, code, msg, hdrs):
  return fp

def hand_cookie():
 cookie = cookielib.CookieJar()
 #cookie_handler = urllib2.HTTPCookieProcessor(cookie)
 #after add error exception handler
 cookie_handler = NoExceptionCookieProcesser(cookie)
 opener = urllib2.build_opener(cookie_handler, urllib2.HTTPHandler)
 url_login = "https://www.yourwebsite/?login"
 params = {"username":"user","password":"111111"}
 opener.open(url_login, urllib.urlencode(params))
 for item in cookie:
  print item.name,item.value
 #urllib2.install_opener(opener)
 #content = urllib2.urlopen(url).read()
 #print len(content)
#得到重定向 N 次以后最后页面URL
def get_request_direct():
 import httplib
 httplib.HTTPConnection.debuglevel = 1
 request = urllib2.Request("http://www.google.com")
 request.add_header("Accept", "text/html,*/*")
 request.add_header("Connection", "Keep-Alive")
 opener = urllib2.build_opener()
 f = opener.open(request)
 print f.url
 print f.headers.dict
 print len(f.read())

if __name__ == "__main__":
 use_urllib2()
 get_request()
 get_request_direct()
 use_proxy()
 hand_cookie()

Python 相关文章推荐
python 文件操作api(文件操作函数)
Aug 28 Python
pycharm中显示CSS提示的知识点总结
Jul 29 Python
Python实现微信中找回好友、群聊用户撤回的消息功能示例
Aug 23 Python
python中resample函数实现重采样和降采样代码
Feb 25 Python
Pycharm中import torch报错的快速解决方法
Mar 05 Python
Python实现转换图片背景颜色代码
Apr 30 Python
Keras: model实现固定部分layer,训练部分layer操作
Jun 28 Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 Python
python3将变量输入的简单实例
Aug 19 Python
Python通过fnmatch模块实现文件名匹配
Sep 30 Python
Python3 如何开启自带http服务
May 18 Python
Python实战之实现简易的学生选课系统
May 25 Python
python MySQLdb Windows下安装教程及问题解决方法
May 09 #Python
Python MySQLdb Linux下安装笔记
May 09 #Python
python实现类的静态变量用法实例
May 08 #Python
python使用pil生成图片验证码的方法
May 08 #Python
python实现连接mongodb的方法
May 08 #Python
python写入xml文件的方法
May 08 #Python
python从sqlite读取并显示数据的方法
May 08 #Python
You might like
PHP应用JSON技巧讲解
2013/02/03 PHP
PHP数据库万能引擎类adodb配置使用以及实例集锦
2014/06/12 PHP
Thinkphp 空操作、空控制器、命名空间(详解)
2017/05/05 PHP
Laravel validate error处理,ajax,json示例
2019/10/25 PHP
如何使用json在前后台进行数据传输实例介绍
2013/04/11 Javascript
引用其它js时如何同时处理多个window.onload事件
2014/09/02 Javascript
JavaScript实现按Ctrl键打开新页面
2014/09/04 Javascript
Javascript模块化编程详解
2014/12/01 Javascript
jquery队列函数用法实例
2014/12/16 Javascript
Javascript基础教程之数据类型 (数值 Number)
2015/01/18 Javascript
js console.log打印对像与数组用法详解
2016/01/21 Javascript
JS当前页面登录注册框,固定DIV,底层阴影的实例代码
2016/09/29 Javascript
扩展bootstrap的modal模态框-动态添加modal框-弹出多个modal框
2017/02/21 Javascript
解决使用bootstrap的dropdown部件时报错:error:Bootstrap dropdown require Popper.js问题
2018/08/30 Javascript
Python从MP3文件获取id3的方法
2015/06/15 Python
Python中使用urllib2模块编写爬虫的简单上手示例
2016/01/20 Python
Python测试人员需要掌握的知识
2018/02/08 Python
Python3最长回文子串算法示例
2019/03/04 Python
详解python爬虫系列之初识爬虫
2019/04/06 Python
Django模板语言 Tags使用详解
2019/09/09 Python
python判断单向链表是否包括环,若包含则计算环入口的节点实例分析
2019/10/23 Python
pd.DataFrame统计各列数值多少的实例
2019/12/05 Python
用OpenCV将视频分解成单帧图片,图片合成视频示例
2019/12/10 Python
opencv3/C++实现视频读取、视频写入
2019/12/11 Python
导入tensorflow:ImportError: libcublas.so.9.0 报错
2020/01/06 Python
python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)
2020/03/12 Python
解决tensorflow/keras时出现数组维度不匹配问题
2020/06/29 Python
Python在后台自动解压各种压缩文件的实现方法
2020/11/10 Python
UNIX文件类型
2013/08/29 面试题
高一地理教学反思
2014/01/18 职场文书
社区助残日活动总结
2014/08/29 职场文书
2014客服代表实习自我鉴定
2014/09/18 职场文书
社区个人对照检查材料(群众路线)
2014/09/26 职场文书
中学生检讨书范文
2014/11/03 职场文书
学籍证明模板
2015/06/18 职场文书
生活委员竞选稿
2015/11/21 职场文书