4个实验,彻底搞懂TCP连接的断开

前言

看到这个标题你可能会说,TCP 连接的建立与断开,这个我熟,不就是三次握手与四次挥手嘛。且慢,脑海中可以先尝试回答这几个问题:

  • 四次挥手是谁发起的?
  • 如果断电/断网了连接会断开吗?
  • 在什么情况下,如果没有四个人挥手,就会断开连接?
    [En]

    under what circumstances will the connection be disconnected without four waving?*

这不是一次采访,而是一个实际问题。至于它是什么,我不会在这篇文章中回答。稍后会有一篇专门的文章介绍问题是什么,所以在我们谈论实际问题之前,我们应该先了解理论。

[En]

This is not an interview, but a practical problem. As for what it is, I will not answer it in this article. Later, there will be a special article about what the problem is, so before we talk about the practical problem, we should understand the theory first.

正常断开

我们由浅入深,先了解正常情况下 TCP 连接是如何断开的,下图为 TCP 三次握手与四次挥手的经典图(来自《TCP/IP详解卷1》)

4个实验,彻底搞懂TCP连接的断开

在我们的电脑上,可以使用 python 的 SimpleHTTPServer 来快速起一个 http 服务(http 也是基于 TCP 协议),比如这样:

python -m SimpleHTTPServer 20880

再通过 nctelnet 这两个命令来创建 TCP 连接,比如我测试使用 nc 来创建连接

nc -v ip port

Connection to ip port [tcp/*] succeeded! 表示连接成功

4个实验,彻底搞懂TCP连接的断开

我们如何观察这个连接呢?可以通过 netstatlsof 来查看这条”连接”,这里我使用 lsof(mac 与 Linux 系统的 netstat 命令不太一样,使用起来有点别扭 )

lsof -i:20880

4个实验,彻底搞懂TCP连接的断开

客户端和服务器都占用一个端口,但服务器端口是固定的,客户端端口是随机的。

[En]

Both the client and the server occupy a port, but the server port is fixed and the client port is random.

如果我们想看 TCP 连接和断开时 握手挥手的 TCP 报文怎么查看呢?可以使用 tcpdump 命令

三次握手

tcpdump -A -vv -i any -S host 10.179.245.95

为了便于观看,它与上面的经典图片放在一起。

[En]

For easy viewing, it is put together with the classic picture above.

4个实验,彻底搞懂TCP连接的断开

这里的参数需要提一下的是 -S,如果不加 -S 参数看到的第三次握手的 ack=1,与书上的理论不太一样,其实这里只是 tcpdump 简化了展示,想看实际值需要加 -S

这里的 Flags [S]/[S.]/[.]

  • [S] 代表 SYN
  • [.] 代表 ACK,[S.] 就是 SYN + ACK

四次挥手

该命令与握手三次握手相同,我们捕获以下波动数据

[En]

The command is the same as the grasping three-way handshake, and we catch the following waving data

4个实验,彻底搞懂TCP连接的断开
  • [F] 代表 FIN

这张图有点奇怪,四次挥手居然变成了三次,这其实是 TCP 协议的实现问题,如果第二次与第三次挥手之间没有数据发送,那么被动断开连接的一方就可能会把第二次的 ACK 与 第三次的 FIN 合并为一次挥手。

当然,我已经捕捉到了四个正常的波,大概是这样的。

[En]

Of course, I’ve caught four normal waves, something like this.

4个实验,彻底搞懂TCP连接的断开

异常断开

有这么多床上用品,让我们开始谈正事吧。

[En]

With so much bedding on it, let’s get down to business.

TCP 连接断开是谁发起的

我们来思考一个问题:TCP 连接的断开是谁发起的?程序本身还是操作系统?

我们来看一段非常简单的 TCP 连接创建与断开的代码

tcpAddr, _ := net.ResolveTCPAddr("tcp", "127.0.0.1:20880")
conn, err := net.DialTCP("tcp", nil, tcpAddr)
if err != nil {
    fmt.Println("Client connect error ! " + err.Error())
    return
}

defer func() {
    err := conn.Close()
    fmt.Println("Client connect closed !")
    if err != nil {
        fmt.Println(err)
    }
}()

fmt.Println(conn.LocalAddr().String() + " : Client connected!")
time.Sleep(10 * time.Second)

运行后,效果如下,也符合我们预期:当程序打印 Client connected! 时,能看到连接,当打印 Client connect closed! 时,连接断开

4个实验,彻底搞懂TCP连接的断开

如果我们在连接断开前使用 kill -9 强杀进程呢?(这里我用了两台电脑来测试)

4个实验,彻底搞懂TCP连接的断开

我们发现 conn.Close() 并没有执行,但四次挥手还是发生了!

查阅资料发现如下结论:

a、b 两个正常连接的对端进程。假如 b 进程没有调用 close 就异常终止,那么发送 FIN 包是内核 OS 代劳

断电/断网时的连接是怎样断开的

通过以上实验,我们发现,即使进程异常终止,操作系统也会帮助发起四波。

[En]

Through the above experiments, we found that even if the process terminates abnormally, the operating system will help initiate four waves.

但如果是断电或断网的情况下,操作系统就无法代劳了,这时会怎样呢?为了便于测试,这里用两台电脑,client 连接 server,断开 server 的网络来模拟断网断电情况。

可以肯定的是 断网,断电后,连接不会立即断开,那么后续连接是否会断开呢?我们分成下面几种情况来看

断网时有数据传输

断网时如果有数据发送,由于收不到 ACK,所以会重试,但并不会无限重试下去,达到一定的重发次数之后,如果仍然没有任何确认应答返回,就会判断为网络或者对端主机发生了异常,强制关闭连接。此时的关闭是直接关闭,而没有挥手(数据都发不出去,还挥啥手),Linux 下的设置为

最小重传时间是200ms
最大重传时间是120s
重传次数为15

断电/断网时没有数据传输

断网时如果没有数据传输,还得看 TCP 连接的 KeepAlive 是否打开,关于 TCP 的 KeepAlive 简介如下:

  • TCP KeepAlive 是一种在不影响数据流内容的情况下探测对方的方式,采用 保活计时器实现,当计时器被触发时,一端发送保活报文,另一端接收到报文后发送 ACK 响应
  • 它并不是 TCP 的规范,但大部分的实现都提供了这一机制
  • 这一机制存在争议,一些人的生存机制应在申请中实施
    [En]

    this mechanism is controversial, and some people’s survival mechanism should be implemented in applications.*

开启KeepAlive

操作系统中有这么几个参数控制 KeepAlive 的配置:

  • Keepalive_time:空闲时间,即多长时间连接没有发送数据时开始 KeepAlive 检测
  • Keepalive_intvl:发送间隔时间,即上述代码的设置
  • Keepalive_probs:最多发送多少个检测数据包

在 Linux 上可以通过如下文件查看

cat /proc/sys/net/ipv4/tcp_keepalive_time
cat /proc/sys/net/ipv4/tcp_keepalive_intvl
cat /proc/sys/net/ipv4/tcp_keepalive_probes

4个实验,彻底搞懂TCP连接的断开

如果按照这个默认值来看,得2小时没有数据传输,KeepAlive 才开始工作!

而在 Go 中只有两个参数可以设置:

conn.SetKeepAlive(true)
conn.SetKeepAlivePeriod(5 * time.Second)

其中第二个 SetKeepAlivePeriod 源码是这样的:

func setKeepAlivePeriod(fd *netFD, d time.Duration) error {
    // The kernel expects seconds so round to next highest second.
    secs := int(roundDurationUp(d, time.Second))
    if err := fd.pfd.SetsockoptInt(syscall.IPPROTO_TCP, sysTCP_KEEPINTVL, secs); err != nil {
        return wrapSyscallError("setsockopt", err)
    }
    err := fd.pfd.SetsockoptInt(syscall.IPPROTO_TCP, syscall.TCP_KEEPALIVE, secs)
    runtime.KeepAlive(fd)
    return wrapSyscallError("setsockopt", err)
}

SetKeepAlivePeriod 的参数同时设置了 tcp_keepalive_intvl 和 tcp_keepalive_time,tcp_keepalive_probes 没法设置

做个简单测试:client 开启 KeepAlive 连接 server 后,什么数据都不发送,把server 的网断掉,可以看到 KeepAlive 心跳包,一段时间后连接被置为 CLOSED 状态

4个实验,彻底搞懂TCP连接的断开

关闭KeepAlive

关闭 KeepAlive 后,如果没有数据传输,连接永远不会断开

断电/断网后 server 重启再恢复

再思考一个场景,如果 client 与 server 建立连接后,没有数据传输,断掉 server 端的网络,这时如果把 server 程序重启一下,再恢复网络,那这条连接还能用吗?

如果 server 重启后,client 还是不发数据,那这条连接看起来还是可用的,因为他们根本不知道对方是个什么情况,但如果此时 client 发送一点数据给 server,你会发现 server 会发送一个 RST 给client,然后 client 就断开连接了

4个实验,彻底搞懂TCP连接的断开

总结

除了正常情况之外,本文从 TCP 连接断开的角度结合实验给出了一些结论:

  • TCP 连接断开的 挥手,在进程崩溃时,会由操作系统内核代劳
  • 当 TCP 连接建立后,如果某一方断电或断网,如果此时刚好正在发送数据,TCP 数据包发送失败后会重试,重试达到上限时也会断开连接
  • 当 TCP 连接建立后,如果某一方断电或断网,且这条连接没有数据传输时
  • 如果开启了 KeepAlive 则会在一定心跳检测后断开连接,这个默认检测时间大概2个多小时,比较久
  • 如果未开启 KeepAlive 则连接永远存在
  • 如果一方发送 RST 包给另一方,也是会强制对方断开连接的

搜索关注微信公众号”捉虫大师”,后端技术分享,架构设计、性能优化、源码阅读、问题排查、踩坑实践。

4个实验,彻底搞懂TCP连接的断开

Original: https://www.cnblogs.com/zhuochongdashi/p/15465151.html
Author: 捉虫大师
Title: 4个实验,彻底搞懂TCP连接的断开

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/524419/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • ELF文件的笔记

    ELF 说明 ELF文件的英文全称是 The Executable and Link Format, 最初是由UNIX系统实验室开发、发布的ABI(Application Bina…

    Linux 2023年6月7日
    0130
  • 【小记】Ubuntu 工具链升级 gcc 流程

    我的是 Ubuntu Server 20.04 LTS,默认 gcc-9,工具链升级至 gcc-11,和 Ubuntu 22.04 LTS 保持一致。 如果本文发文时间比较旧,你所…

    Linux 2023年6月13日
    095
  • python截取字符串(字符串切片)

    python中使用 []来截取字符串,语法: 字符串[起始&#…

    Linux 2023年6月6日
    0142
  • cpp-函数

    1.基础概念 形参:用在定义、申明处的参数,用于说明参数的类型、名称 实参:用在函数调用,用…

    Linux 2023年6月7日
    0135
  • Redis 缓存更新一致性

    在使用 Redis 作为数据库缓存的场景中对数据的读取流程通常是先读取缓存如果命中则返回,未命中则从数据库读取并把数据写到缓存中。 当更新数据时则数据库和缓存都要进行更新,此时我们…

    Linux 2023年5月28日
    0107
  • typedef

    为类型定义别名 typedef int Int 这样 Int 就是 int类型的别名,就可以使用 Int来定一整形变量. 只需要在类型变量生命的基础上,再加一个关键字 typede…

    Linux 2023年6月13日
    0102
  • shell 变量的默认值

    在 shell 脚本中,如果要使用某个变量又想给它设置默认值,可以用 XX=${YY-ZZ} 的方式,其中 ZZ 会是 YY 没有设置时的默认值 另一种用法是 XX=${YY:-Z…

    Linux 2023年5月28日
    0118
  • 上篇:Go函数的骚包玩法有哪些

    1. 用type关键字可以定义函数类型,函数类型变量可以作为函数的参数或返回值。 package main import "fmt" func add(a, b…

    Linux 2023年6月7日
    0109
  • UE4游戏上架Steam全流程

    本人使用的是UE4.27.2, Windows 11操作系统。 首先,在ue4项目的插件设置中,勾选Online Subsystem 和 Online Subsystem Stea…

    Linux 2023年6月6日
    0118
  • 搭建Nginx四层反向代理

    需求背景: 前段时间公司因为业务需求需要部署一个正向代理,我已经分享出来了https://www.cnblogs.com/Dfengshuo/p/11911406.html,现有因…

    Linux 2023年6月8日
    0132
  • Linux命令行如何实现sftp限速传输

    上周遇到一个需要在Linux命令行模式下进行sftp限速传输的场景(公司带宽占用限制) 百度后无果,问老江湖F哥也没办法(百度出的结果都是用lftp指令,内网环境无法安装) 我真的…

    Linux 2023年5月27日
    096
  • Ubuntu下安装多个JDK,并设置其中一个为默认JDK

    由于使用需要,要在机器上同时安装OpenJDK 8和11,并将8设置为默认JDK 首先安装OpenJDK sudo apt-get install openjdk-8-jdk su…

    Linux 2023年6月6日
    0122
  • echarts属性的设置大全(完整大全)

    1. 全图默认背景  &amp…

    Linux 2023年6月13日
    086
  • kubeadm搭建单master k8s集群

    kubeadm搭建单master k8s集群 一、 准备环境 软件环境: 软件 版本 操作系统 CentOS7.9_x64 内核 kernel-ml-5.17.3-1.el7 Do…

    Linux 2023年6月13日
    0133
  • 大数库GMP测试

    任务详情 在openEuler(推荐)或Ubuntu或Windows(不推荐)中完成下面任务 用自己8位学号建两个文件夹xxxxxxxxsrc,xxxxxxxx,到GMP官网htt…

    Linux 2023年6月8日
    0111
  • 内网渗透测试:利用DCOM进行横向渗透——利用ExecuteShellCommand在做远程命令执行

    COM COM即组件对象模型(Component Object Model,COM) ,是基于 Windows 平台的一套组件对象接口标准,由一组构造规范和组件对象库组成。COM是…

    Linux 2023年5月28日
    0107
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球