Python urllib、urllib2、httplib抓取网页代码实例


Posted in Python onMay 09, 2015

使用urllib2,太强大了
试了下用代理登陆拉取cookie,跳转抓图片......
文档:http://docs.python.org/library/urllib2.html

直接上demo代码了
包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理

#!/usr/bin/python
# -*- coding:utf-8 -*-
# urllib2_test.py
# author: wklken
# 2012-03-17 wklken@yeah.net


import urllib,urllib2,cookielib,socket

url = "http://www.testurl....." #change yourself
#最简单方式
def use_urllib2():
 try:
  f = urllib2.urlopen(url, timeout=5).read()
 except urllib2.URLError, e:
  print e.reason
 print len(f)

#使用Request
def get_request():
 #可以设置超时
 socket.setdefaulttimeout(5)
 #可以加入参数 [无参数,使用get,以下这种方式,使用post]
 params = {"wd":"a","b":"2"}
 #可以加入请求头信息,以便识别
 i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",
       "Accept": "text/plain"}
 #use post,have some params post to server,if not support ,will throw exception
 #req = urllib2.Request(url, data=urllib.urlencode(params), headers=i_headers)
 req = urllib2.Request(url, headers=i_headers)

 #创建request后,还可以进行其他添加,若是key重复,后者生效
 #request.add_header('Accept','application/json')
 #可以指定提交方式
 #request.get_method = lambda: 'PUT'
 try:
  page = urllib2.urlopen(req)
  print len(page.read())
  #like get
  #url_params = urllib.urlencode({"a":"1", "b":"2"})
  #final_url = url + "?" + url_params
  #print final_url
  #data = urllib2.urlopen(final_url).read()
  #print "Method:get ", len(data)
 except urllib2.HTTPError, e:
  print "Error Code:", e.code
 except urllib2.URLError, e:
  print "Error Reason:", e.reason

def use_proxy():
 enable_proxy = False
 proxy_handler = urllib2.ProxyHandler({"http":"http://proxyurlXXXX.com:8080"})
 null_proxy_handler = urllib2.ProxyHandler({})
 if enable_proxy:
  opener = urllib2.build_opener(proxy_handler, urllib2.HTTPHandler)
 else:
  opener = urllib2.build_opener(null_proxy_handler, urllib2.HTTPHandler)
 #此句设置urllib2的全局opener
 urllib2.install_opener(opener)
 content = urllib2.urlopen(url).read()
 print "proxy len:",len(content)

class NoExceptionCookieProcesser(urllib2.HTTPCookieProcessor):
 def http_error_403(self, req, fp, code, msg, hdrs):
  return fp
 def http_error_400(self, req, fp, code, msg, hdrs):
  return fp
 def http_error_500(self, req, fp, code, msg, hdrs):
  return fp

def hand_cookie():
 cookie = cookielib.CookieJar()
 #cookie_handler = urllib2.HTTPCookieProcessor(cookie)
 #after add error exception handler
 cookie_handler = NoExceptionCookieProcesser(cookie)
 opener = urllib2.build_opener(cookie_handler, urllib2.HTTPHandler)
 url_login = "https://www.yourwebsite/?login"
 params = {"username":"user","password":"111111"}
 opener.open(url_login, urllib.urlencode(params))
 for item in cookie:
  print item.name,item.value
 #urllib2.install_opener(opener)
 #content = urllib2.urlopen(url).read()
 #print len(content)
#得到重定向 N 次以后最后页面URL
def get_request_direct():
 import httplib
 httplib.HTTPConnection.debuglevel = 1
 request = urllib2.Request("http://www.google.com")
 request.add_header("Accept", "text/html,*/*")
 request.add_header("Connection", "Keep-Alive")
 opener = urllib2.build_opener()
 f = opener.open(request)
 print f.url
 print f.headers.dict
 print len(f.read())

if __name__ == "__main__":
 use_urllib2()
 get_request()
 get_request_direct()
 use_proxy()
 hand_cookie()

Python 相关文章推荐
利用Python如何生成随机密码
Apr 20 Python
Python松散正则表达式用法分析
Apr 29 Python
使用Python的Scrapy框架十分钟爬取美女图
Dec 26 Python
tensorflow: 查看 tensor详细数值方法
Jun 13 Python
caffe binaryproto 与 npy相互转换的实例讲解
Jul 09 Python
python多线程分块读取文件
Aug 29 Python
PHP统计代码行数的小代码
Sep 19 Python
Python Process多进程实现过程
Oct 22 Python
Pandas 解决dataframe的一列进行向下顺移问题
Dec 27 Python
关于tf.nn.dynamic_rnn返回值详解
Jan 20 Python
Python selenium如何打包静态网页并下载
Aug 12 Python
Python连接Postgres/Mysql/Mongo数据库基本操作大全
Jun 29 Python
python MySQLdb Windows下安装教程及问题解决方法
May 09 #Python
Python MySQLdb Linux下安装笔记
May 09 #Python
python实现类的静态变量用法实例
May 08 #Python
python使用pil生成图片验证码的方法
May 08 #Python
python实现连接mongodb的方法
May 08 #Python
python写入xml文件的方法
May 08 #Python
python从sqlite读取并显示数据的方法
May 08 #Python
You might like
PHP函数spl_autoload_register()用法和__autoload()介绍
2012/02/04 PHP
memcache命令启动参数中文解释
2014/01/13 PHP
PHP如何通过传引用的思想实现无限分类(代码简单)
2015/10/13 PHP
Laravel5.* 打印出执行的sql语句的方法
2017/07/24 PHP
如何实现iframe(嵌入式帧)的自适应高度
2006/07/26 Javascript
读jQuery之十一 添加事件核心方法
2011/07/31 Javascript
有关于JS辅助函数inherit()的问题
2013/04/07 Javascript
js实现滑动到页面底部自动加载更多功能
2017/02/15 Javascript
ES6新特性之Symbol类型用法分析
2017/03/31 Javascript
浅谈vue实现数据监听的函数 Object.defineProperty
2017/06/08 Javascript
微信小程序图片左右摆动效果详解
2019/07/13 Javascript
微信小程序按顺序同步执行的两种方式
2019/12/20 Javascript
vue中使用带隐藏文本信息的图片、图片水印的方法
2020/04/24 Javascript
vue实现给div绑定keyup的enter事件
2020/07/31 Javascript
Python ORM框架SQLAlchemy学习笔记之数据查询实例
2014/06/10 Python
详解 Python中LEGB和闭包及装饰器
2017/08/03 Python
Python正则捕获操作示例
2017/08/19 Python
Python cookbook(数据结构与算法)筛选及提取序列中元素的方法
2018/03/19 Python
谈谈Python:为什么类中的私有属性可以在外部赋值并访问
2020/03/05 Python
Django中Aggregation聚合的基本使用方法
2020/07/09 Python
Win10下配置tensorflow-gpu的详细教程(无VS2015/2017)
2020/07/14 Python
python 对一幅灰度图像进行直方图均衡化
2020/10/27 Python
selenium+python自动化78-autoit参数化与批量上传功能的实现
2021/03/04 Python
Tory Burch德国官网:美国时尚生活品牌
2018/01/03 全球购物
Under Armour安德玛荷兰官网:美国高端运动科技品牌
2019/07/10 全球购物
《曹刿论战》教学反思
2014/03/02 职场文书
我爱我的祖国演讲稿
2014/05/04 职场文书
公司试用期员工自我评价
2014/09/17 职场文书
群众路线剖析材料(四风问题)
2014/10/08 职场文书
党的群众路线教育实践活动心得体会(医院)
2014/11/03 职场文书
2015教师见习期工作总结
2014/12/12 职场文书
刑事法律意见书
2015/06/04 职场文书
婚礼迎宾词大全
2015/08/10 职场文书
运动会200米广播稿
2015/08/19 职场文书
公司会议开幕词
2016/03/03 职场文书
tomcat正常启动但网页却无法访问的几种解决方法
2022/05/06 Servers