编程 Python

Python 仅获取响应头, 不获取实体的实例

Posted in Python onAugust 21, 2019

Python Just get Response Headers, not get content.

1. Use HEAD method

>>> import requests
>>> res = requests.head("http://www.baidu.com/")
>>> req.head("https://www.baidu.com/").headers
{'Content-Encoding': 'gzip', 'Server': 'bfe/1.0.8.18', 'Last-Modified': 'Mon, 13 Jun 2016 02:50:08 GMT', 'Connection': 'Keep-Alive', 'Pragma': 'no-cache', 'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Date': 'Fri, 13 Oct 2017 04:36:20 GMT', 'Content-Type': 'text/html'}
>>> res.ok
True
>>> res.content
''
# 但是会遇到一些问题, 比如, 服务器不支持 HEAD, 或者拒绝 HEAD.
# 如下情况就被拒绝
#
>>> res = req.head("https://www.douban.com/subject/1/")
>>> res
<Response [403]>
>>> res.ok
False
>>> res.content
''
>>> res.headers
{'Content-Encoding': 'gzip', 'Keep-Alive': 'timeout=30', 'Server': 'dae', 'Connection': 'keep-alive', 'Date': 'Fri, 13 Oct 2017 04:39:00 GMT', 'Content-Type': 'text/html'}

不是很通用, 因为有些服务器不支持.

2. Use urllib

import urllib
>>> res = urllib.urlopen("http://127.0.0.1:8000/git.exe")
>>> res.url
'http://127.0.0.1:8000/git.exe'
>>> res.headers.headers
['Server: SimpleHTTP/0.6 Python/2.7.10\r\n', 'Date: Fri, 13 Oct 2017 06:06:37 GMT\r\n', 'Content-type: application/x-msdownload\r\n', 'Content-Length: 7569408\r\n', 'Last-Modified: Fri, 16 Dec 2016 07:09:32 GMT\r\n']
>>> len(r.read())
7569408
# urllib 只有在调用 read/readline/readlines 的时候才会从 web 服务器读取数据.
# 源码可以在 urllib/httplib 中找到. 
# urllib.py
def urlopen(url, ...):
 opener = FancyURLopener()
 return opener.open(url)
class FancyURLopener(URLopener).open():
 getattr(self, name)(url)
class URLopener.open_http():
 errcode, errmsg, headers = h.getreply()
 if(200 <= errcode < 300):
  return addinfourl(fp, headers, "http:" + url, errcode)
 else:
  if data is None:
   return self.http_error(url, fp, errcode, errmsg, headers)
  else:
   return self.http_error(url, fp, errcode, errmsg, headers, data)
class URLopener.http_error():
 return method(url, fp, errcode, errmsg, headers)
class FancyURLopener.http_error_default():
 return addinfourl(fp, headers, "http:" + url, errcode)
class addinfourl(addbase):
 # 代码中并没有对 fp 做任何操作,包括读写. 
class addbase.__init __():
 self.fp = fp
 self.read = self.fp.read
 self.readline = self.fp.readline
 if hasattr(self.fp, "readlines"): self.readlines = self.fp.readlines
  self.fileno = self.fp.fileno
 # ... ...

可以看到, urllib.open 最终返回了 addbase, addbase 中没有对 socket 做任务处理, 不会有任何读写. 之后显示调用 read/readline/readlines, 才会从 web 服务器读取数据.

图 1. 初始化网络.

Python 仅获取响应头, 不获取实体的实例

图 2. urlopen() 之后

Python 仅获取响应头, 不获取实体的实例

图 3. read() 之后

Python 仅获取响应头, 不获取实体的实例

3. Use socket

看过 urllib 之后, 可以使用 socket 写一个方法, 只获取 header.

import socket
import ssl


_timeout = 10
socket.setdefaulttimeout(_timeout)

def get_header(host, port=80, uri="/", method="GET", user_ssl=False):
 # 这里可以再扩充一下, 支持 headers
 conn = None
 header = """%s %s HTTP/1.1\r\nHost: %s\r\nConnection: close\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36\r\n\r\n""" % (
  method, uri, host)
 if user_ssl:
  ssl_context = ssl.SSLContext(ssl.PROTOCOL_TLSv1)
  _socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
  conn = ssl_context.wrap_socket(_socket, server_hostname=host)
  conn.connect((host, port))
  conn.send(header)
 else:
  conn = socket.create_connection((host, port), _timeout)
  conn.sendall(header)
 text = ""
 while True:
  if "\r\n\r\n" in text:
   break
  buff = conn.recv(10)
  text += buff
  # print buff
 conn.close()
 return text.split("\r\n\r\n")[0]

if __name__ == '__main__':
 print get_header("www.douban.com", uri="/subject/27076001/")
 print
 print get_header("www.douban.com", uri="/subject/27076001/", port=443, user_ssl=True)

➜ 76[14:48:20]zhipeng@zhipeng-MacBook ~/demo/python
�� $ python test_header.py
HTTP/1.1 301 Moved Permanently
Date: Fri, 13 Oct 2017 06:48:23 GMT
Content-Type: text/html
Content-Length: 178
Connection: close
Location: https://www.douban.com/subject/27076001/
Server: dae

HTTP/1.1 302 Moved Temporarily
Server: ADSSERVER/45863
Date: Fri, 13 Oct 2017 06:48:23 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: close
Location: https://sec.douban.com/b?r=https%3A%2F%2Fwww.douban.com%2Fsubject%2F27076001%2F
Strict-Transport-Security: max-age=15552000;
Set-Cookie: __ads_session=uY8l3pLW/AjCKJ8Y4wA=; domain=.douban.com; path=/
X-Powered-By-ADS: uni-jnads-1-02
➜ 77[14:48:23]zhipeng@zhipeng-MacBook ~/demo/python 
�� $

参考

<< Python socket server handle HTTPS request >> (https://stackoverflow.com/questions/32062925/python-socket-server-handle-https-request)

以上这篇Python 仅获取响应头, 不获取实体的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python 仅获取响应头, 不获取实体的实例

- Author -

zhipeng-python

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

利用Python实现简单的相似图片搜索的教程

Apr 23 Python

Python获取央视节目单的实现代码

Jul 25 Python

Scrapy框架CrawlSpiders的介绍以及使用详解

Nov 29 Python

python opencv 直方图反向投影的方法

Feb 24 Python

Python并行分布式框架Celery详解

Oct 15 Python

pycham查看程序执行的时间方法

Nov 29 Python

pycharm内无法import已安装的模块问题解决

Feb 12 Python

基于Python fminunc 的替代方法

Feb 29 Python

Python3 利用face_recognition实现人脸识别的方法

Mar 13 Python

python实现俄罗斯方块小游戏

Apr 24 Python

Anaconda的安装与虚拟环境建立

Nov 18 Python

用Python爬取英雄联盟的皮肤详细示例

Dec 06 Python

详解用Python为直方图绘制拟合曲线的两种方法

Aug 21 #Python

Python 使用指定的网卡发送HTTP请求的实例

Aug 21 #Python

Python turtle绘画象棋棋盘

Aug 21 #Python

Python随机函数库random的使用方法详解

Aug 21 #Python

Django+zTree构建组织架构树的方法

Aug 21 #Python

python的移位操作实现详解

Aug 21 #Python

基于Python的微信机器人开发微信登录和获取好友列表实现解析

Aug 21 #Python

You might like

雄兵连：第三季确定会出，不过时间未定，鹤熙是第三季的主角！

2020/03/13 国漫

随机广告显示(PHP函数)

2006/10/09 PHP

php文件缓存类汇总

2014/11/21 PHP

php文件操作之小型留言本实例

2015/06/20 PHP

微信第三方登录(原生)demo【必看篇】

2017/05/26 PHP

PHP利用百度ai实现文本和图片审核

2019/05/08 PHP

javascript 面向对象 function类

2010/05/13 Javascript

统计jQuery中各字符串出现次数的工具

2012/05/03 Javascript

javascript函数中参数传递问题示例探讨

2014/07/31 Javascript

jQuery检测输入的字符串包含的中英文的数量

2015/04/17 Javascript

jquery实现TAB选项卡鼠标经过带延迟效果的方法

2015/07/27 Javascript

javascript中this指向详解

2016/04/23 Javascript

js仿百度切换皮肤功能（html+css）

2016/07/10 Javascript

AngularJS实现单独作用域内的数据操作

2016/09/05 Javascript

用node和express连接mysql实现登录注册的实现代码

2017/07/05 Javascript

微信小程序实现选项卡功能

2020/06/19 Javascript

使用Angular CLI生成 Angular 5项目教程详解

2018/03/18 Javascript

jquery.pager.js分页实现详解

2019/07/29 jQuery

JS实现贪吃蛇游戏

2019/11/15 Javascript

vue 封装面包屑组件教程

2020/11/16 Javascript

[42:25]2018DOTA2亚洲邀请赛 4.5 淘汰赛 LGD vs Liquid 第三场

2018/04/06 DOTA

python实现博客文章爬虫示例

2014/02/26 Python

python smtplib模块发送SSL/TLS安全邮件实例

2015/04/08 Python

Android基于TCP和URL协议的网络编程示例【附demo源码下载】

2018/01/23 Python

将python图片转为二进制文本的实例

2019/01/24 Python

在django中使用post方法时,需要增加csrftoken的例子

2020/03/13 Python

Keras中的多分类损失函数用法categorical_crossentropy

2020/06/11 Python

详解Tensorflow不同版本要求与CUDA及CUDNN版本对应关系

2020/08/04 Python

加拿大鞋子连锁店：Town Shoes

2016/09/26 全球购物

MYSQL相比于其他数据库有哪些特点

2013/07/19 面试题

教学评估实施方案

2014/03/16 职场文书

留学推荐信范文

2014/05/10 职场文书

考试诚信承诺书

2014/05/23 职场文书

画展邀请函

2015/01/31 职场文书

邀请书模板

2015/02/02 职场文书

呼啸山庄读书笔记

2015/06/29 职场文书