はじめに
2021年10月14日、ドコモ回線が繋がりにくい状態となり3G回線では完全復旧に29時間かかってしまいました。そんなトラブル経緯が日経コンピュータにあり、「異例の通信障害 設備の処理能力を見誤って輻輳招く」という記事で解説されていたのでエッセンスを紹介します。
漫画/メモ
きっかけは設備の切り替え工事に不具合が生じたことで切り戻しをしたものの、その中の手順として見積もりが甘かったという話。システムとしては、タクシーや自販機の電子決済に関するIoT回線の管理をするもののようで、切り替えの中でIoTデバイスの位置情報が新機器側に残っているので旧機器側に戻す必要がありました。(素朴に旧側には既存の情報が残っているのでは?と思ったりしますが)
ところがここで失敗。一斉に旧機器側に位置情報の再登録を促すとパンクするというのは分かっていたので「まずは20万台」とグループに区切るもそれでも再送が起きてしまったんだとか。確かにこういうのは難しいですが、やはりできるだけ小さいところから始めてパフォーマンスをチェックするのがいいんでしょうね。
終わりに
移行作業にはフォールバック手順の準備は必須ですが、移行手順よりもフォールバック手順にこそ力を入れるべき・・・というのを改めて感じました。やっぱりトラブルを起こすことが一番駄目・・というインフラチームの鉄則ですね。メモメモ。