python TCP Socket的粘包和分包的处理详解


Posted in Python onFebruary 09, 2018

概述

在进行TCP Socket开发时,都需要处理数据包粘包和分包的情况。本文详细讲解解决该问题的步骤。使用的语言是Python。实际上解决该问题很简单,在应用层下,定义一个协议:消息头部+消息长度+消息正文即可。

那什么是粘包和分包呢?

关于分包和粘包

粘包:发送方发送两个字符串”hello”+”world”,接收方却一次性接收到了”helloworld”。

分包:发送方发送字符串”helloworld”,接收方却接收到了两个字符串”hello”和”world”。

虽然socket环境有以上问题,但是TCP传输数据能保证几点:

  • 顺序不变。例如发送方发送hello,接收方也一定顺序接收到hello,这个是TCP协议承诺的,因此这点成为我们解决分包、黏包问题的关键。
  • 分割的包中间不会插入其他数据。

因此如果要使用socket通信,就一定要自己定义一份协议。目前最常用的协议标准是:消息头部(包头)+消息长度+消息正文

TCP为什么会分包

TCP是以段(Segment)为单位发送数据的,建立TCP链接后,有一个最大消息长度(MSS)。如果应用层数据包超过MSS,就会把应用层数据包拆分,分成两个段来发送。这个时候接收端的应用层就要拼接这两个TCP包,才能正确处理数据。

相关的,路由器有一个MTU( 最大传输单元),一般是1500字节,除去IP头部20字节,留给TCP的就只有MTU-20字节。所以一般TCP的MSS为MTU-20=1460字节。

当应用层数据超过1460字节时,TCP会分多个数据包来发送。

扩展阅读

TCP的RFC定义MSS的默认值是536,这是因为 RFC 791里说了任何一个IP设备都得最少接收576尺寸的大小(实际上来说576是拨号的网络的MTU,而576减去IP头的20个字节就是536)。
TCP为什么会粘包

有时候,TCP为了提高网络的利用率,会使用一个叫做Nagle的算法。该算法是指,发送端即使有要发送的数据,如果很少的话,会延迟发送。如果应用层给TCP传送数据很快的话,就会把两个应用层数据包“粘”在一起,TCP最后只发一个TCP数据包给接收端。

开发环境

  • Python版本:3.5.1
  • 操作系统:Windows 10 x64

消息头部(包含消息长度)

消息头部不一定只能是一个字节比如0xAA什么的,也可以包含协议版本号,指令等,当然也可以把消息长度合并到消息头部里,唯一的要求是包头长度要固定的,包体则可变长。下面是我自定义的一个包头:

版本号(ver) 消息长度(bodySize) 指令(cmd)

版本号,消息长度,指令数据类型都是无符号32位整型变量,于是这个消息长度固定为4×3=12字节。在Python由于没有类型定义,所以一般是使用struct模块生成包头。示例:

import struct
import json

ver = 1
body = json.dumps(dict(hello="world"))
print(body) # {"hello": "world"}
cmd = 101
header = [ver, body.__len__(), cmd]
headPack = struct.pack("!3I", *header)
print(headPack) # b'\x00\x00\x00\x01\x00\x00\x00\x12\x00\x00\x00e'

关于用自定义结束符分割数据包

有的人会想用自定义的结束符分割每一个数据包,这样传输数据包时就不需要指定长度甚至也不需要包头了。但是如果这样做,网络传输性能损失非常大,因为每一读取一个字节都要做一次if判断是否是结束符。所以建议还是选择消息头部+消息长度+消息正文这种方式。

而且,使用自定义结束符的时候,如果消息正文中出现这个符号,就会把后面的数据截止,这个时候还需要处理符号转义,类比于\r\n的反斜杠。所以非常不建议使用结束符分割数据包。

消息正文

消息正文的数据格式可以使用Json格式,这里一般是用来存放独特信息的数据。在下面代码中,我使用{"hello","world"}数据来测试。在Python使用json模块来生成json数据

Python示例

下面使用Python代码展示如何处理TCP Socket的粘包和分包。核心在于用一个FIFO队列接收缓冲区dataBuffer和一个小while循环来判断。

具体流程是这样的:把从socket读取出来的数据放到dataBuffer后面(入队),然后进入小循环,如果dataBuffer内容长度小于消息长度(bodySize),则跳出小循环继续接收;大于消息长度,则从缓冲区读取包头并获取包体的长度,再判断整个缓冲区是否大于消息头部+消息长度,如果小于则跳出小循环继续接收,如果大于则读取包体的内容,然后处理数据,最后再把这次的消息头部和消息正文从dataBuffer删掉(出队)。

下面用Markdown画了一个流程图。

python TCP Socket的粘包和分包的处理详解

服务器端代码

# Python Version:3.5.1
import socket
import struct

HOST = ''
PORT = 1234

dataBuffer = bytes()
headerSize = 12

sn = 0
def dataHandle(headPack, body):
  global sn
  sn += 1
  print("第%s个数据包" % sn)
  print("ver:%s, bodySize:%s, cmd:%s" % headPack)
  print(body.decode())
  print("")

if __name__ == '__main__':
  with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    s.bind((HOST, PORT))
    s.listen(1)
    conn, addr = s.accept()
    with conn:
      print('Connected by', addr)
      while True:
        data = conn.recv(1024)
        if data:
          # 把数据存入缓冲区,类似于push数据
          dataBuffer += data
          while True:
            if len(dataBuffer) < headerSize:
              print("数据包(%s Byte)小于消息头部长度,跳出小循环" % len(dataBuffer))
              break

            # 读取包头
            # struct中:!代表Network order,3I代表3个unsigned int数据
            headPack = struct.unpack('!3I', dataBuffer[:headerSize])
            bodySize = headPack[1]

            # 分包情况处理,跳出函数继续接收数据
            if len(dataBuffer) < headerSize+bodySize :
              print("数据包(%s Byte)不完整(总共%s Byte),跳出小循环" % (len(dataBuffer), headerSize+bodySize))
              break
            # 读取消息正文的内容
            body = dataBuffer[headerSize:headerSize+bodySize]

            # 数据处理
            dataHandle(headPack, body)

            # 粘包情况的处理
            dataBuffer = dataBuffer[headerSize+bodySize:] # 获取下一个数据包,类似于把数据pop出

测试服务器端的客户端代码

下面附上测试粘包和分包的客户端代码

# Python Version:3.5.1
import socket
import time
import struct
import json

host = "localhost"
port = 1234

ADDR = (host, port)

if __name__ == '__main__':
  client = socket.socket()
  client.connect(ADDR)

  # 正常数据包定义
  ver = 1
  body = json.dumps(dict(hello="world"))
  print(body)
  cmd = 101
  header = [ver, body.__len__(), cmd]
  headPack = struct.pack("!3I", *header)
  sendData1 = headPack+body.encode()

  # 分包数据定义
  ver = 2
  body = json.dumps(dict(hello="world2"))
  print(body)
  cmd = 102
  header = [ver, body.__len__(), cmd]
  headPack = struct.pack("!3I", *header)
  sendData2_1 = headPack+body[:2].encode()
  sendData2_2 = body[2:].encode()

  # 粘包数据定义
  ver = 3
  body1 = json.dumps(dict(hello="world3"))
  print(body1)
  cmd = 103
  header = [ver, body1.__len__(), cmd]
  headPack1 = struct.pack("!3I", *header)

  ver = 4
  body2 = json.dumps(dict(hello="world4"))
  print(body2)
  cmd = 104
  header = [ver, body2.__len__(), cmd]
  headPack2 = struct.pack("!3I", *header)

  sendData3 = headPack1+body1.encode()+headPack2+body2.encode()


  # 正常数据包
  client.send(sendData1)
  time.sleep(3)

  # 分包测试
  client.send(sendData2_1)
  time.sleep(0.2)
  client.send(sendData2_2)
  time.sleep(3)

  # 粘包测试
  client.send(sendData3)
  time.sleep(3)
  client.close()

服务器端打印结果

下面是测试出来的打印结果,可见接收方已经完美的处理粘包和分包问题了。

Connected by ('127.0.0.1', 23297)
第1个数据包
ver:1, bodySize:18, cmd:101
{"hello": "world"}

数据包(0 Byte)小于包头长度,跳出小循环
数据包(14 Byte)不完整(总共31 Byte),跳出小循环
第2个数据包
ver:2, bodySize:19, cmd:102
{"hello": "world2"}

数据包(0 Byte)小于包头长度,跳出小循环
第3个数据包
ver:3, bodySize:19, cmd:103
{"hello": "world3"}

第4个数据包
ver:4, bodySize:19, cmd:104
{"hello": "world4"}

在框架下处理粘包和分包

其实无论是使用阻塞还是异步socket开发框架,框架本身都会提供一个接收数据的方法提供给开发者,一般来说开发者都要覆写这个方法。下面是在Twidted开发框架处理粘包和分包的示例,只上核心程序:

# Twiested
class MyProtocol(Protocol):
  _data_buffer = bytes()

  # 代码省略

  def dataReceived(self, data):
    """Called whenever data is received."""
    self._data_buffer += data
    headerSize = 12

    while True:
      if len(self._data_buffer) < headerSize:
        return

      # 读取消息头部
      # struct中:!代表Network order,3I代表3个unsigned int数据
      headPack = struct.unpack('!3I', self._data_buffer[:headerSize])
      # 获取消息正文长度
      bodySize = headPack[1]

      # 分包情况处理
      if len(self._data_buffer) < headerSize+bodySize :
        return

      # 读取消息正文的内容
      body = self._data_buffer[headerSize:headerSize+bodySize]
      # 处理数据
      self.dataHandle(headPack, body)
      # 粘包情况的处理
      self._data_buffer = self._data_buffer[headerSize+bodySize:]

总结

以上就是本文关于python TCP Socket的粘包和分包的处理详解的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
paramiko模块安装和使用(远程登录服务器)
Jan 27 Python
Python中的数据对象持久化存储模块pickle的使用示例
Mar 03 Python
Python编程求解二叉树中和为某一值的路径代码示例
Jan 04 Python
Python面向对象之类和对象实例详解
Dec 10 Python
Pyinstaller 打包exe教程及问题解决
Aug 16 Python
OpenCV+face++实现实时人脸识别解锁功能
Aug 28 Python
Python 复平面绘图实例
Nov 21 Python
Python如何使用turtle库绘制图形
Feb 26 Python
pandas使用之宽表变窄表的实现
Apr 12 Python
Keras构建神经网络踩坑(解决model.predict预测值全为0.0的问题)
Jul 07 Python
Python字典实现伪切片功能
Oct 28 Python
python库Tsmoothie模块数据平滑化异常点抓取
Jun 10 Python
python实现Adapter模式实例代码
Feb 09 #Python
python实现Decorator模式实例代码
Feb 09 #Python
Python多线程扫描端口代码示例
Feb 09 #Python
Python编程实现从字典中提取子集的方法分析
Feb 09 #Python
python tensorflow学习之识别单张图片的实现的示例
Feb 09 #Python
python删除服务器文件代码示例
Feb 09 #Python
详解Python使用tensorflow入门指南
Feb 09 #Python
You might like
php将12小时制转换成24小时制的方法
2015/03/31 PHP
PHP中常见的缓存技术实例分析
2015/09/23 PHP
PHP图形操作之Jpgraph学习笔记
2015/12/25 PHP
PHP面向对象程序设计模拟一般面向对象语言中的方法重载(overload)示例
2019/06/13 PHP
用JavaScript玩转游戏物理(一)运动学模拟与粒子系统
2010/06/19 Javascript
dtree 网页树状菜单及传递对象集合到js内,动态生成节点
2012/04/14 Javascript
写得不错的jquery table鼠标经过变色代码
2013/09/27 Javascript
js读写cookie实现一个底部广告浮层效果的两种方法
2013/12/29 Javascript
node.js实现多图片上传实例
2014/06/03 Javascript
详解maxlength属性在textarea里奇怪的表现
2015/12/27 Javascript
js拖拽的原型声明和用法总结
2016/04/04 Javascript
详解闭包解决jQuery中AJAX的外部变量问题
2017/02/22 Javascript
React-Native实现ListView组件之上拉刷新实例(iOS和Android通用)
2017/07/11 Javascript
基于vue v-for 循环复选框-默认勾选第一个的实现方法
2018/03/03 Javascript
Vue一个案例引发的递归组件的使用详解
2018/11/15 Javascript
实用的Vue开发技巧
2019/05/30 Javascript
element-ui 中使用upload多文件上传只请求一次接口
2019/07/19 Javascript
jQuery实现判断滚动条滚动到document底部的方法分析
2019/08/27 jQuery
利用Python将文本中的中英文分离方法
2018/10/31 Python
Python面向对象之类的封装操作示例
2019/06/08 Python
python读取并写入mat文件的方法
2019/07/12 Python
python图片指定区域替换img.paste函数的使用
2020/04/09 Python
Python趣味入门教程之循环语句while
2020/08/26 Python
python调用jenkinsAPI构建jenkins,并传递参数的示例
2020/12/09 Python
来自全球大都市的高级街头服饰:Pegador
2018/01/03 全球购物
意大利消费电子产品购物网站:SLG Store
2019/12/26 全球购物
关键字final的用法
2013/10/02 面试题
写一个方法,输入一个文件名和一个字符串,统计这个字符串在这个文件中出现的次数
2016/04/13 面试题
《玩具柜台前的孩子》教学反思
2014/02/13 职场文书
小学教学随笔感言
2014/02/26 职场文书
红领巾心向党演讲稿
2014/09/10 职场文书
2014年学生资助工作总结
2014/12/18 职场文书
2015年教研工作总结
2015/05/23 职场文书
2016教师学习党章心得体会
2016/01/15 职场文书
导游词书写之黄山
2019/08/06 职场文书
MySQL InnoDB ReplicaSet(副本集)简单介绍
2021/04/24 MySQL