00:00:58
icon

これいみわからんくない?落とし穴やン

00:02:07
icon

いやマジでTCPレイヤーだと思わんかったわ

00:02:42
icon

じゃあちょっとメンテ入ります。バグるけどごめんね。

00:25:24
icon

うーん、これどうだろう・・・

00:25:41
icon

なんでこれでなおらないんだろう・・・

00:29:02
icon

なぜか再現しないから治ったかもしれん

00:29:19
icon

まだ単にユーザーが少ないだけの可能性があるので、みんなもうっちょっと発言してもらって良いですか

00:29:56
icon

え?やっぱり治ってないですか?

00:30:09
icon

再発した

00:30:11
icon

クソ

00:30:16
icon

あああああああああああああ

00:33:03
icon

ご協力ありがとうございました

00:33:21
icon

お手上げなので切り戻しを考えていますが多分数万円くらいの喪失が出ます

00:33:27
icon

損失

00:35:05
icon

きょうの対処で間違いなく発生頻度は抑えられたので、別に見当違いのことをしたわけではなさそうなんだけど、一方で根本原因ではなかったようですね・・・

00:36:26
icon

これ間違いなくRedisのバグとNode.jsのバグを引いてる

00:36:53
icon

そうじゃなかったらカーネルのTCPレイヤーのバグとしか思えん

00:37:02
icon

そんなわけないやろ

00:41:14
icon

test

00:44:41
icon

マジで何これ

00:48:08
icon

家のネット回線落ちてやばい

01:01:01
icon

streamingサーバーがARPテーブルのキャッシュ切れでRedisサーバーのARP解決を試みる
→その直後、1秒間くらいその宛先へのTCPが全部落ちる(なんで?)
→TCP FIN & 再Handshake
→Redis上は全てのSUBSCRIBE要求を1パケットに乗せて送る
→Redisの1リクエストで許容できる上限を超えてしまいRedisがブチキレる
→Streamingは拗ねて二度とRedisにSUBSCRIBE要求を送らない

01:01:54
icon

ARP解決のタイミングで落ちることは100%確定したので、
キャッシュを無限に残るようにすれば解決する気がするけど、
今日はもう寝ます。

01:03:07
icon

違う気がするな。streamingホストでredisのreplicaを動かして、unix socketで繋いだ方がいい気がする。

01:05:40
icon

信じられんのだけど5/5で再現してるから、このクラウド事業者のVPCがおかしくて、ARP解決(要するにブロードキャスト)がちゃんと通らんのかもしれん…

01:06:41
icon

負荷が低いと発生しないこともわかっている

01:08:11
icon

単に1分に1回落ちてるだけ説も考えたんだけど、100ms以内だからさすがに違うと思うんだよなあ

09:49:45
icon

ねむい

19:06:17
icon

福岡

Attach image
22:46:14
icon

え、ストライクウィッチーズの話してます??る