卡瓦邦噶！ | 无法自制的人得不到自由。

LRO/GRO 对于网络吞吐的影响

Posted on 2025年11月21日 by laixintao 10 Comments

打开这个抓包文件，可以马上确认这是一个发送的数据比较多的连接¹，因为 TCP sequence number 上升的很快，IP 层的包都是用最大的 MTU 发送的。

分析长肥管道，可以使用之前介绍过的技术，用 tcptrace 来分析。

打开 Statistics > TCP Stream Graphs > Time Sequence (tcptrace)，可以看到下图。（如果是一个直线，说明方向看反了，点击 Switch Direction.

由于没有抓到这个 stream 的 TCP 3次卧手包，我们不知道 window scaling 是多少，所以这条绿线就可以直接忽略了。剩余的看起来一点问题没有，cwnd 打开并且保持的很好，也没有很多 SACK。在 200ms 左右有一次丢包。但是看 sequence 上涨的趋势来说，并没有造成多大的影响，很快补回来了。所以这里不是主要原因。

Sequence 上涨的趋势没有太大问题，还会有超时，那么问题就可能出在——上涨的速度不够快。同样的转发链路，我们不禁怀疑，是不是新的设备比旧的设备转发性能低？每一个包都慢几个 us，总的吞吐就低？

可以打开正常的转发抓包做对比：

这个线确实可能更加斜一点，但是斜多少呢？我们可以看吞吐的图。

棕色的线对应实际的传输速率（右侧的 Y 轴）。可以看到，正常情况下吞吐可以达到 220Mbps 左右，但是换上新的设备只有 140Mbps 左右。在大部分 HTTP 请求中，对于小的包，延迟的变化不会特别大，但是在长肥管道中，吞吐低就会造成传输数据就会出现差距。导致部分请求超时。

其实，新旧设备的转发速度并没有根本的区别，造成吞吐不同的原因，发生在别处。

这两幅图的对比也揭示了更加深层次的原因：即左侧的 Y 轴。

左侧 Y 轴，以及图中的蓝色点，含义是 packet 的 size 的分布，每一个点代表了一个 packet size。第一幅图中，所有的 packet 都是使用最大的 MTU 发送的。内层 overlay（VxLAN Tunnel 里面）的 MTU 是 1450.

而下图中，packet 的 size 居然超过了 MTU！

之前的一篇有关 MTU 的讨论²，我们知道，发送超过 MTU 的包是会被其他的设备丢弃的，那么为什么我们从 tcpdump 能看到超过 MTU 的包呢？这是因为网卡帮我们把收到的多个小包给合并成了一个大包，再交给操作系统（Kernel）处理，这部分现在一般是在网卡的硬件上来完成的，所以我们抓包看到的（即操作系统看到的）是网卡合并处理之后的包。这叫做 Large Receive Offload，LRO。

为什么要这么做呢？因为 CPU 是通用处理器，它能做很多事情。很忙。为了提高性能，在硬件上做的很多优化都是让其他的硬件去分担 CPU 的工作。比如：

让 GPU 来代替 CPU 做矩阵运算；
用专用的设备来卸载 TLS³；
让网卡卸载 vlan，把小包合成大包，等等；

网卡擅长做重复但是简单的事情，合并小包再是再合适不过啦！

而 CPU 的工作量主要和处理多少包有关，和包的长度关系不大，长度是 1 的包（在 kernel 里面是 skb）和长度是 10000 的包，对于 cpu 来说，只是一个 length 的 value 不同而已。包的内容是业务逻辑，主要是由应用程序处理的，在 Kernel 里面，主要关注的是包的 header。假设 CPU 的能力是每秒处理 10 万个包，如果每一个包的长度是 1Kb，那么吞吐就是 10Mbps；但如果包的平均长度是 100Kb，那么吞吐可以达到 1Gbps。所以有了网卡给我们做 LRO，就可以有效提高 CPU 的吞吐。

到现在，原因就清晰了：新设备上了之后 LRO 失效，由于服务器的网卡不再执行 LRO 功能，吞吐就下降了很多，导致了部分请求超时。

那么为什么换了新的设备之后，服务器的网卡 LRO 就失效了呢？服务器网卡 LRO 和网络设备又有什么关系？

由于做不做 LRO 是服务器的网卡的硬件实现，我们无法查看硬件的设计。但是从其他地方对于 LRO/GRO 的描述，我们可以得到一些启发。

Linux 可以在没有硬件的支持下，用软件的方式实现 Generic Receive Offload, GRO （当然了，性能肯定是要差一些）。Kernel 的文档对于 GRO 的描述⁴如下：

Generic receive offload is the complement to GSO. Ideally any frame assembled by GRO should be segmented to create an identical sequence of frames using GSO, and any sequence of frames segmented by GSO should be able to be reassembled back to the original by GRO. The only exception to this is IPv4 ID in the case that the DF bit is set for a given IP header. If the value of the IPv4 ID is not sequentially incrementing it will be altered so that it is when a frame assembled via GRO is segmented via GSO.

除了 GRO，还有一种机制是 GSO，即 Kernel 在发送 TCP 流的时候，无须自己把每一个 Segment 切分成符合 MTU 大小再发送，而是可以直接发送，由网卡硬件来做这个切分操作。

为了让 GRO 和 GSO 是互相可逆的，即 GRO 之后的包可以通过 GSO 还原出来。需要保证：

IP 包的 DF 设置为1，禁止 IP Fragmentation；
IP 包的 DF 如果是0，那么 IP 的 ID 必须是连续的；

两个规则只要符合一条即可。

如果 DF 为1，很好理解，GRO 和 GSO 很容易逆向出来。

如果 DF 为0，ID 连续，比如 100，101，102，那么合成一个大包，大包的 ID 是 100，也可以逆向出来。但是如果 ID 不连续，比如 101，105，107，那么合成一个大包之后，就丢失原始的信息了。

对于 VxLAN 的包，在 DPDK 的文档⁵中，由明确要求外层的 IP 包和内层的 IP 包都要遵守这个规则：

outer IPv4 ID. The IPv4 ID fields of the packets, whose DF bit in the outer IPv4 header is 0, should be increased by 1.

inner TCP sequence number

inner IPv4 ID. The IPv4 ID fields of the packets, whose DF bit in the inner IPv4 header is 0, should be increased by 1.

查看吞吐慢的 tcpdump，可以发现 outer 的 ip.df 是0，而且 ID 不连续，所以无法做 LRO/GRO。

虽然我没有想到保证可逆可以带来哪些好处，但是从网上找到的资料来看，这个是在「ip.df=0 并且 ip.id 不连续的时候，不做 GRO」唯一的理由了。在另一处的邮件讨论中⁶，netdev 维护者以这个原则为理由拒绝了合并。起因是 Alexander Duyck 希望添加这个 patch，以达到效果：对于 overlay 的包，GRO 不再看外层包的 ip.id ，外层可以使用 fixed header，只看内层包的 ip.id 是否连续。这样，很多（实现不正确的）网络设备也可以享受 GRO 的好处了，但是因为会打破可逆的原则，所以没有被合并。

PS：上一篇文章问题中很多读者提到 GSO，为什么是 GRO 而不是 GSO 呢？因为 9999 是 server 端口，所以 192.168.1.100:9999 是 server 端，抓包文件显示的主要流量是 client 上传给 server 的，不是 server 发给 client 的。另一个细节是，.100 发给 .200 的 delta time，一般比 .200 发给 .100 的 delta time 要低，也可以佐证 .100 是 server 端。

==抓包破案录==

这篇文章是抓包破案录系列文章（之前叫做《计算机网络实用技术》，后来改名了）中的一篇，这个系列正在连载中，我计划用这个系列的文章来分享一些网络抓包分析的实用技术。这些文章都是总结了我的工作经历中遇到的问题，经过精心构造和编写，每个文件附带抓包文件，通过实战来学习网络抓包与分析。

如果本文对您有帮助，欢迎扫博客右侧二维码打赏支持，正是订阅者的支持，让我公开写这个系列成为可能，感谢！

如果您正在阅读的是题目类的文章，这个目录内容正好用来隔离其他读者的评论。读完题目可以稍作暂停，进行思考，继续向下滑动，可能会被其他的读者剧透答案。

没有链接的目录还没有写完，敬请期待……

与本博客的其他页面不同，本页面使用 署名-非商业性使用-禁止演绎 4.0 国际 协议。

0.01% 的概率超时问题

Posted on 2025年11月11日 by laixintao 19 Comments

前言：这个系列（以及我的博客）好久不更新了，原因有两个，一个是我在学习用双拼打字，手跟不上脑子，写的东西读起来不顺畅，不过现在已经复健了。双拼确实能极大地减少按键次数，在 AI 的时代，每个人需要和 AI 对话，那么怎么赶上时代的潮流，从芸芸众人脱颖而出呢？我的建议是：练习打字，打字打得快，和 AI 沟通效率高，做 AI 时代的佼佼者；第二个原因是我最近在思考人生的意义。上次录制博客 laike9m 提到了存在主义危机，第一次知道这个词，我觉得我就是陷入了存在主义危机。苦苦思索人生的意义，没有思考出什么结果。看了一些书，看的是莫言，刘震云，看了一本漫画，《我以为这辈子完蛋了- [美]艾莉·布罗什》，让我思考了很多。但是依然没有结论。人生没有思考明白，问题先来了。

有一天，我们在上线新的设备，上线之后，用户反馈他们的服务出现了网络超时的错误。超时的概率大概在 0.01%，并且出现的时间和我们上线新的设备的时间完全一致。我们把新上线的设备隔离（不再处理线上流量）用户的服务没有再出现错误了。

我们对新设备的性能非常有信心，不应该比原来的设备转发速度还低。这中间一定是有什么问题。

拓扑图简化如下：

其中，用户的 Client 和 Server 侧之间的网络是无法连通的，我们的网络设备会把用户的 Ethernet 包封装到 UDP 里面发送（overlay，原理就和 VPN 一样），这个设备提供了封装，转发的服务。但是用户的 Client 和 Server 感受不到中间这个 tunnel 的存在，Client 和 Server 之间的 IP 地址是可以直接 ping 通的，TCP 也是可以连通的，全靠我们的设备在中间做了转发。

我们做了一些常规检查没有发现问题，然后重新上线新的设备，要求用户在 Server 端进行抓包。得到文件如下。在一般的问题分析中，我们一般只看 packet 的 header 就够了，不需要看 application 层的 TCP payload，所以在抓包的时候我们会截断 TCP 的 payload，这样，在下载抓包文件和交流的时候，更方便一些，并不影响问题的分析。

timeout-issue.pcap 下载

请据此分析，造成小概率超时的问题在哪里。

如果没有头绪，请看下面的提示。

在找不到问题的时候，我们会对比正常情况下的表现，通过正常和异常的情况的不同来寻找线索。以下是原有环境的抓包文件，没有超时的请求。

no-timeout.pcap 下载

对比两个抓包问题，请分析问题的根因。

==抓包破案录==

这篇文章是抓包破案录系列文章（之前叫做《计算机网络实用技术》，后来改名了）中的一篇，这个系列正在连载中，我计划用这个系列的文章来分享一些网络抓包分析的实用技术。这些文章都是总结了我的工作经历中遇到的问题，经过精心构造和编写，每个文件附带抓包文件，通过实战来学习网络抓包与分析。

如果本文对您有帮助，欢迎扫博客右侧二维码打赏支持，正是订阅者的支持，让我公开写这个系列成为可能，感谢！

如果您正在阅读的是题目类的文章，这个目录内容正好用来隔离其他读者的评论。读完题目可以稍作暂停，进行思考，继续向下滑动，可能会被其他的读者剧透答案。

没有链接的目录还没有写完，敬请期待……

与本博客的其他页面不同，本页面使用 署名-非商业性使用-禁止演绎 4.0 国际 协议。

PDF 电子书重排和裁剪

Posted on 2025年8月2日 by laixintao 7 Comments

很久之前画重金买的阅读器¹是 A4 纸大小，无论是阅读电子书还是 paper 都很好。但是后来莫名其妙地屏幕部分区域失灵了（情况和这里²介绍的差不多），维修找不到售后，京东推给 SONY，SONY 客服根本不知道有这么个产品，所以索性换了另一款阅读器：remarkable2.

这件事也加深了我 SONY 品控差的印象，之前的买过的 SONY 产品还包括 PSV，遥感漂移了（好像 switch 也有这类问题，所以可以饶恕吧）；PS4 手柄莫名其妙也坏了，PS4 主机后来也坏了。以后不想再买 SONY 的产品了……

回到 Remarkable2，这款屏幕是 10.3 英寸，没有比之前的尺寸小很多，有一些 PDF 阅读起来就不太方便。有一些阅读器支持重排版和裁剪，有这个功能就解决问题了。但是仔细一想——重排版和裁剪不应该是一个软件功能吗？那么直接使用软件对 PDF 进行处理，然后阅读处理之后的文档不是也可以解决问题吗？

然后就发现了这个软件 K2pdfopt³，可以重新版本 PDF 为阅读器的尺寸。并且可以自动删除 PDF 的白边。

比如下面这个文档，对于印刷比较友好，左侧页面有右侧的留白，右侧页面有左侧的留白，但是使用阅读器，就浪费空间了。

K2pdfopt 可以自动裁切这种空白，命令是：

k2pdfopt input.pdf -h 1872 -w 1404  -dpi 226 -p 1-50 -wrap+ -m -o output.pdf -ui-

效果如下。

双栏的论文 PDF 页可以改成单栏的：

k2pdfopt paper1.pdf -mode 2col -col 2 -n -fc- -x -y -t -ds 2  -h 1872 -w 1404 -dpi 226 -m -o output_paper.pdf

最后在阅读器上的效果如下：

IP 网段的几种常见表示方式

Posted on 2025年7月19日 by laixintao 4 Comments

IP Network

也叫做 CIDR (Classless Inter-Domain Routing)，表示一个网络段，比如 192.168.0.0/24。

路由设备通过网络掩码去匹配地址，所以子网的划分一般用这种形式。/24 有的地方也用掩码 255.255.255.0，表示的内容是一样的。

ipcalc¹ 这个工具可以帮助计算 IP 网络。

IP Range

表示一个 IP 范围，从起始 IP 到结束 IP。比如 192.168.1.1 到 192.168.1.100，一共 100 个 IP。

它可以表示如：192.168.1.100 – 192.168.2.10 这种连续的段，但是 Network 是无法表示出来的。

IP Glob

使用 * 通配符来匹配 IP 的某部分，语法类似于 shell 中对文件名的 glob 匹配。

比如 192.168.1.* 就等同与 192.168.1.0/24。但是 192.168.1.2* 就没有与之等同的 Network 表示。

反过来，192.168.1.0/26 的范围是 192.168.1.0 – 192.168.1.63, 也不能用 IP Glob 表示。

SSH 的 ~/.ssh/config 就是用 IP Glob 来定义不同的 IP （Host）登陆的配置的。

IPSet

IPSet 是一个 Set，一般来说是 IP 地址和 CIDR 的集合，所以可以表示任意 IP 的集合。ACL 一般用 IPSet 的方式来配置。

https://formulae.brew.sh/formula/ipcalc ↩︎

Burn out 逃生指南

Posted on 2025年7月19日 by laixintao 5 Comments

在同一家公司工作两年以上，有很大概率会 burn out（意思就是精疲力尽，俺不中了）。如果岗位又是 SRE，那么 burn out 时刻几乎是必然。

为什么会这样？一个是因为工作的时间越长，做的东西就越多，维护的东西也越多，维护的工作就越多，然而新的项目还是要做，就会忙不过来了。加上在大公司分工明确，没有人关心甲方的死活，所以你依赖的库时常会有不兼容更新，依赖的组件经常因为组织结构调整而下线，依赖的 IDC 也会下线，安全团队时不时也会找过来让做一些安全方面的加固。总有一天，会发现自己的 todo list 里面放满了待迁移的事项，自己的用户天天来问一些相同的问题，老板有新的想法需要马上实现。每天下了班都在想着工作，每天都不想上班。这个时候，你就知道这是 burn out 了。

作为一个资深的 SRE，我这里有两条靠谱的路可以逃生。

第一条：每两年换一次工作。

很显然，这样的话，上面这些工作就不会积累下来压死骆驼了。但是如果不想工作三十年打 15 份工的话，就需要一些技巧了。

建议一：提高工作效率，而不是工作时间

之所以放在第一条，是因为这是最重要的一条建议，也是常常被我们忽略的一条。

工作总量 = 工作效率 x 时间

在工作量大的时候，自然而然想到的是延长工作时间，这是非常不可取的，工作时间应该固定在每天 8小时，一周5天，不能再增加了。尤其是 SRE，工作时间越长，出错的概率越大，出了事故就得去救火，review incidents，提出改进措施，实施改进措施，带来更多的工作。此外，如果延长工作时间，那后面要讨论的心理管理等话题就都没有意义了。

所以工作量增加的时候，重点要放在提高工作效率，而不是增加工作时间，end of story.

建议二：安排工作的优先级和时间

在焦头烂额的时候，如果有人天天来跟你说「这个需求很重要，什么时候能完成？」可能就会先做这个需求。有段时间每天至少 5 个人来问我 xx 什么时候可以做完，我的回答每天都一样，「和最初承诺的时间一样，如果最近有空了可以加快一些」。因为最初的时间就是按照优先级排列的，不会因为有人天天来问就变得快一些。

优先级如何排列，也不是只看需求方说的。如果对方提了一个不合理的时间，要了解下为什么这样着急。很多 deadline 都是随意拍脑袋定的，可能是为了某人在某个时间点可以向大老板汇报，可能是依赖你的工作的人先承诺了一个 deadline，也可能就是随意定的一个日期。在焦头烂额的一堆工作中，有几个有着让人焦虑的 deadline，让人很难忽略这些工作。但是优先级不应该按照 deadline 来排列，而应该按照真正的重要程度来排列。

项目的发布日期已经对外宣布，用户期待在这一天使用新功能；
线上的系统摇摇欲坠，必须更新一个 fix；
新的集群需要部署，但是如果晚几天部署，也不会 block 任何人的工作；
……

遇到不合理的预期的时候，可以问这几个问题：

这个需求是服务谁的？为什么要做？如果不按照这个时间上线会有什么后果？
其他人的工作是否可以并行做，如果我的这个工作不做，会 block 谁？

有时候把项目在 deadline 之前做完了，却发现后续的一段时间并没有用起来，或者项目继续被其他人 block 着，原来给出的时间线本身就是不切实际的。在最开始就讨论好项目整体的计划，了解真正的紧急程度，避免这些问题。

按照优先级给出需求方截止时间，然后按时间交付工作。但是这之间难免会遇到其他事情，比如临时插入了更紧急的需求，线上发生了事故需要立即处理等等。这一般也不是问题，在时间线有变化，无法按时交付的时候，应该立即通知需求方遇到的困难，新的预估时间。忌讳的是没有和需求方同步，直到交付日期的时候才说，因为某某原因项目无法按时交付了。

建议三：大项目如何推进？

对于大型的项目，尤其是需要多方参与的那种，如果你不幸当了项目的 owner，那么这个建议很实用：用笔记软件记录每天的进展，记录每天遇到的问题，以及这些问题的进展。

以前有一次我们要新建一个数据中心，infra 把机器准备好，然后中间件团队部署好各种服务，缓存，队列，网关等等，然后业务团队部署好业务程序，最后上线。但是我们已经好几年没有完整地上线过一个数据中心了，很多代码中都已经编码了 IDC 的名字，所以这项工作异常困难，要么这个组件启动不了，要么那个组件存在硬编码问题。

负责这个项目的同事是一个很靠谱的人，每遇到一个问题，他都在文档中记录下来。问题原因，负责人，解决方法，解决进度。项目结束之后，这个文档列出来长长的一串问题。看到这个文档我的感受有二：项目真难，这位负责的同事真靠谱。

同时我也学会了这项工作方法，那时候起我就开始写工作笔记（用的软件是 Roam Research，笔记经过整理记录在公司的文档系统中），每一个项目都有详细的记录，记录的问题也成千上万了。

工作笔记的好处多多，显而易见的是，没有人能记住如此多的问题和细节，所以必须追踪记录。另外也让工作进度和内容透明，如果项目不能如期完成，也能知道问题在哪里。如果没有项目文档，无法解释项目进展和问题，就只能项目负责人的问题了。

经过实践我发现一个额外的好处是，可以带来工作心态的变化。

如果没有记录——想起来这个项目满是头疼，已经经历过 x 问题，y 问题，天知道还要经历什么问题，感觉每走一步都困难重重，想起来就头疼。

有了记录——我们已经解决了 x 问题和 y 问题，我倒要看看还可能出现什么问题！

建议四：使用异步的沟通方式

前面提到过我们要提高工作效率。一个重要的方法就是不要破坏自己的整块时间，不要让自己总是处于被打断的情况。如果养成了过几分钟就要切换到聊天软件查看消息的状态，那工作效率就完蛋了。

要像使用邮件一样使用消息软件，异步轮询沟通。（证明：基于忙轮询的 DPDK 比基于中断的 Linux 网络栈，性能就高多了）。

怎样做呢？前面我们已经学会写工作笔记了，在被 block 需要与人沟通的地方，就在这里记录下需要沟通和确认的地方。然后在每天定时（比如早上刚来和午饭之后）遍历所有在 block 的点，对每一个点都问一遍相关的同事需要确认的问题。但是一定要把所有的细节说全，比如咨询一个网络问题，要提供自己的 IP，对方的 IP 端口，现象是什么，预期结果是什么，traceroute 是什么。防止对方缺少信息需要跟你再次确认。这就回到问问题的艺术的话题¹了。这样就不需要等待回复，所有相关的消息发出去之后就可以继续做没有被 block 的工作，然后等下下次轮询的时间查看消息。

对于收到的信息也一样，几乎所有的消息都不必立即回复。也可以用轮询的方式处理。很多人问问题的时候都不懂如何一次性把信息都提供出来，比如，报告网络问题，连从哪里到哪里有问题都说不明白。不必在等待回复上浪费时间。

建议五：安排工作计划

这条建议可以让你带着一个好心情上班：每周安排好这周要做的事情，每天安排好明天要做的事情，可以已经确定的优先级来安排。

如果没有工作计划，那每天上班看到的就是一个长长的 todo list，怎么能让人不焦虑。

如果有工作计划的话，至少确定今天只要完成这些工作就好了。心理上的负担也会轻松很多。明天的工作就让明天的自己去担心好了。

建议六：每天至少完成一件事情

这条建议可以让你带着一个好心情下班：每天至少完成一件事情，比如解决集群搭建中一个 block 的点，比如完整实现一个需求。

如果一天的时间都在开会，和不同的人讨论细节，到下班的时候一事无成，是很挫败的。每天至少动手完成了点什么，这点满足感会带来很大的不同。

建议七：不要完全放弃有长期收益的事情

不要花所有的时间去做紧急的事情，要花时间去做不紧急但是重要的事情。

比如：

提高监控的覆盖度；
自动化一个操作；
从根本解决一个性能问题；

每天忙于救火，就永远无法从这种工作状态中脱身。去从根本解决问题，工作也会越来越少，形成良性循环。

举个例子：在给产品值班的时候，会有很多用户来问问题。我一般会提供用户文档链接，文档中有答案。如果对于一个问题没有现有的文档可以回答，要么是产品设计出了问题——为什么用户会有此疑问？要么是文档不够全面，我会去写一个关于这个问题的文档，然后再给用户文档链接。虽然表面上可以直接回答的问题花了更长的时间去解决，但是长远来看，将来的用户可能因为这个文档就不来问这个问题了，即使有人问相同的问题，我也可以给文档链接。

有关操作的自动化，也不是所有的操作都应该自动化，也要看投入产出比。如果一个操作一个月才有机会操作一次，那么用文档记录下来如何手工操作，也可以。相较之下，手工操作反而可能成本更低。此外，如果使用频率不高，那么下次用到的时候，自动化的流程很可能是坏掉的，需要临时去 debug 哪里出了问题。

程序员如何高效和同行交流 ↩︎

2026 年 7 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31