これいみわからんくない?落とし穴やン

いやマジでTCPレイヤーだと思わんかったわ

じゃあちょっとメンテ入ります。バグるけどごめんね。

うーん、これどうだろう・・・

なんでこれでなおらないんだろう・・・

なぜか再現しないから治ったかもしれん

まだ単にユーザーが少ないだけの可能性があるので、みんなもうっちょっと発言してもらって良いですか

え?やっぱり治ってないですか?

再発した

あああああああああああああ

ご協力ありがとうございました

お手上げなので切り戻しを考えていますが多分数万円くらいの喪失が出ます

きょうの対処で間違いなく発生頻度は抑えられたので、別に見当違いのことをしたわけではなさそうなんだけど、一方で根本原因ではなかったようですね・・・

これ間違いなくRedisのバグとNode.jsのバグを引いてる

そうじゃなかったらカーネルのTCPレイヤーのバグとしか思えん

そんなわけないやろ

マジで何これ

家のネット回線落ちてやばい

streamingサーバーがARPテーブルのキャッシュ切れでRedisサーバーのARP解決を試みる
→その直後、1秒間くらいその宛先へのTCPが全部落ちる(なんで?)
→TCP FIN & 再Handshake
→Redis上は全てのSUBSCRIBE要求を1パケットに乗せて送る
→Redisの1リクエストで許容できる上限を超えてしまいRedisがブチキレる
→Streamingは拗ねて二度とRedisにSUBSCRIBE要求を送らない

ARP解決のタイミングで落ちることは100%確定したので、
キャッシュを無限に残るようにすれば解決する気がするけど、
今日はもう寝ます。

違う気がするな。streamingホストでredisのreplicaを動かして、unix socketで繋いだ方がいい気がする。

信じられんのだけど5/5で再現してるから、このクラウド事業者のVPCがおかしくて、ARP解決(要するにブロードキャスト)がちゃんと通らんのかもしれん…

負荷が低いと発生しないこともわかっている

単に1分に1回落ちてるだけ説も考えたんだけど、100ms以内だからさすがに違うと思うんだよなあ

ねむい

え、ストライクウィッチーズの話してます??る