WebSocket 优雅停机与连接迁移:服务发版用户频繁掉线?平滑过渡 + 状态保持方案!
公司的在线客服系统用的是 WebSocket。每次发版滚动更新,旧 Pod 一停,挂在上面的几千个 WebSocket 连接全断。前端虽然做了自动重连,但重连期间用户发了一条消息,没收到回复,以为客服不理他,直接给了差评。更糟糕的是,客服正在输入的内容也丢了——WebSocket 断了,会话状态没了。 WebSocket 跟 HTTP 不一样。HTTP 是无状态的,请求断了重试一次就好。WebSocket 是长连接,一旦断了,连接上的状态全丢。发版又是必然事件——你不能为了 WebSocket 永远不发版。 今天聊聊怎么让 WebSocket 在服务发版时平滑过渡,不让用户感知到断线。 WebSocket 发版的三个痛点 滚动更新时,K8s 或者运维平台会给旧 Pod 发 SIGTERM 信号,然后等一段时间(默认 30 秒)后 SIGKILL。WebSocket 没有 HTTP 那样的负载均衡重试机制,Pod 一死连接直接断。 三个痛点: 连接断开——旧 Pod 停了,上面的 WebSocket 连接瞬间全断。用户端要么看到连接断开提示,要么消息发不出去。 状态丢失——客服正在输入....