追踪网站大量502

昨天有一场活动，活动过程当中突然redis proxy发生了长时间GC，这段时间之内大量的报警。过了几分钟就恢复了，以为没事了，晚上发现proxy层有大量的502服务。就开始了第二天的追查。

通过查proxy日志，有这几个特点。

有大量的502 后端超时时间都是3秒多次502之后，部分机器被下架所有机器都被下架猜想一：后端服务有大量的502

通过查找后端服务日志，没有发现有502。并且proxy相关的日志ID，并没有出现在后端服务日志里面。

猜想二：后端服务日志没有打印出来

我们是go服务，查找代码，没有发现什么地方，能输出502。并且没有地方设置超时时间为3秒。

猜想三：Redis抖动造成的？

难道是Redis超时+重试是3秒，最后发现也不是这个原因。

这些猜想都不对，我就打算看nginx配置，proxy超时时间设置的是60秒，不是3秒，而且我们的接口有的能有5秒，也没有超时，应该不是proxy配置问题造成的。

突然发现了nginx错误日志，发现上面写的很清楚，连接upstram超时。我们都是内网，为什么会超时呢？网络应该不会有问题，其他的服务都没有问题。

猜想四：难道Nginx有一些默认的超时配置

搜索了相关的Nginx代码，并没有相关的默认配置。

猜想五：TCP握手有问题

通过查找资料，发现了新的方向。一些相同遭遇的人，通过抓包发现，SYN+重试正好是3秒。为什么连接不上呢？通过和小伙伴讨论，难道是go后端有问题？

猜想六：go代码有问题

经过看代码，发现了这么一段代码

func (srv *Server) Serve(l net.Listener) error {
defer l.Close()
if fn := testHookServerServe; fn != nil {
fn(srv, l)
}
var tempDelay time.Duration // how long to sleep on accept failure
if err := srv.setupHTTP2(); err != nil {
return err
}
for {
rw, e := l.Accept()
if e != nil {
if ne, ok := e.(net.Error); ok && ne.Temporary() {
if tempDelay == 0 {
tempDelay = 5 * time.Millisecond
} else {
tempDelay *= 2
}
if max := 1 * time.Second; tempDelay > max {
tempDelay = max
}
srv.logf("http: Accept error: %v; retrying in %v", e, tempDelay)
time.Sleep(tempDelay)
continue
}
return e
}
tempDelay = 0
c := srv.newConn(rw)
c.setState(c.rwc, StateNew) // before Serve can return
go c.serve()
}
}

然后查看日志，搜索关键字，终于发现了http: Accept error: accept tcp 0.0.0.0:8081: accept4: too many open files; retrying in 5ms。瞬间豁然开朗。

经过和运维确认，发现机器重启之后，程序的默认打开文件数量变成了1024，低于我们的QPS。

出错过程

proxy将流量打到后端服务，结果后端服务连接数已经达到超时，连接失败。nginx连续遇到多次失败，将机器下架，最终造成雪崩效应，所有的机器都会被下架。下架的这段时间，自动的返回的502，不会将流量打到后端。

转载请注明：万马奔腾追踪网站大量502

追踪网站大量502

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本