用心跳检测死TCP连接

介绍

网络可能会以许多方式失败,有时会很细微(例如高比率的数据包丢失)。中断的TCP连接需要比较长时间(例如,在Linux上默认是大约11分钟)才能被操作系统检测到。AMQP 0-9-1 提供心跳功能,以确保应用层及时发现连接中断(以及完全无响应的对等体)。心跳也可以防御某些网络设备,当一段时间内没有任何活动时,可能会终止空闲的TCP连接。

心跳超时间隔

心跳超时值的定义为:在RabbitMQ与客户端之间应该将对等TCP连接视作为无法访问(down)的时间段之后。此值在连接时由客户端和RabbitMQ服务器之间协商。客户端必须配置请求心跳。在RabbitMQ 3.0或更高版本中,Broker 将会默认尝试心跳值(尽管客户端仍可否决)。超时时间的单位为秒,默认值为 60 (在3.5.5之前为 580)

每间隔大约 timeout/2 秒发送一次心跳帧。在两次丢失心跳后,TCP对等体就被认为是无法访问的。不同的客户端对此有不同的显示,但TCP连接将会被关闭。当客户端检测到由于心跳而无法访问 RabbitMQ 节点时,需要重新连接。

任何流量(例如协议操作、发布的消息、确认)会计数有效的心跳数。客户端可以选择发送心跳帧,而不管连接是否有其他流量,但有些只在必要时才进行。

可以通过将超时间隔设置为 0 来禁用心跳。这不是推荐的做法。

Java客户端开启心跳

要在 Java 客户端开启心跳超时,请在创建连接之前使用 ConnectionFactory#setRequestedHeartbeat 进行设置。

ConnectionFactory cf = new ConnectionFactory();
// set the heartbeat timeout to 60 seconds
cf.setRequestedHeartbeat(60);

请注意,如果 RabbitMQ 服务器配置了非零心跳超时值(在 3.6.x 版本开始为默认值),则客户端只能比该值低,而不能比它高。

.NET 客户端开启心跳

要在.NET客户端中配置心跳超时,请在创建连接之前使用 ConnectionFactory.RequestedHeartbeat 进行设置:

var cf = new ConnectionFactory();
// set the heartbeat timeout to 60 seconds
cf.RequestedHeartbeat = 60;

低超时值与错误判断

由于瞬时网络拥塞、短时间服务器流量控制等原因,将心跳超时值设置得太低可能导致错误的判断(对等体被认为不可用,但实际上它是可用的)。在选择超时值时,应该考虑这一点。

来自用户和客户端库维护者的这几年有价值的反馈表明,低于5秒的值很可能导致误报,1秒或更低的值则非常可能会这样子做。5到20秒范围内的值对大多数环境是最佳的选择。

在 STOMP 中的心跳

STOMP1.2 包含心跳 。在STOMP中,心跳超时可以是不对称的:也就是说,客户端和服务器可以使用不同的值。 RabbitMQ STOMP插件完全支持此功能。

STOMP中的心跳可以选择性加入。要开启它们,请在连接时,使用 heart-beat 头部。参见 STOMP 规范 的一个例子。

在 MQTT 中的心跳

MQTT 3.1.1 包含心跳 ,用不同的名称(keepalives)来表示。RabbitMQ MQTT插件完全支持此功能。

MQTT在 Keepalives 可以选择性加入。要开启它们,请在连接时设置 keepalive 间隔。请查看你的 MQTT 客户端文档来获取例子。

Shovel 和 Federation 插件中的心跳

ShovelFederation 插件:用来进行 Erlang 客户端连接到 RabbitMQ 节点。因此,它们可以被配置为使用期望的心跳值。

详细请看 AMQP 0-9-1 URI查询参数指引

心跳与TCP keepalives

TCP包含一个类似于心跳的(也称为 keepalive) 的机制,它覆盖上面的消息协议和 net tick 超时之上:TCP keepalives . 由于默认值不足,对于消息传输协议,TCP keepalive 并不适用,甚至是适得其反。然而,通过适当的调整,在不能期望应用程序开启心跳或使用合理值的环境下,它们可以作为额外的防御机制。详情请看 网络指南