SEのゆるい技術メモ

派遣エンジニアが低信頼性のメモを書いています。参考程度にとどめてください。

(4コマ漫画)気になる事例 : ディスク障害でDBがうまく切り替わらなかったという話

はじめに

2021年8月20日、みずほ銀行の営業店にて窓口業務が全面停止するトラブルがありました。
その経緯が日経コンピュータにて「営業店の窓口業務が全面停止 DC切り替えためらい、障害長期化」という記事で解説されていたのですがなかなかに興味深い事例でした。

漫画/メモ

f:id:mtiit:20211009231507p:plain
ディスク障害がDB障害につながってしまった

ディスク装置が故障すれば、冗長構成を組んでいる限りはスペアのディスクで補完できます。
同システムもミラーリングしているディスクに切り替わり、新しいミラーディスクを作るためにコピーが始まりましたがなんとそのミラーディスクにも障害が起きてしまったんだとか。

いわゆる二重障害なので可哀想と言えば可哀想ですが、これきっかけでDBサーバは停止してしまいました。
しかし問題はここで終わらず、Symforware Serverという富士通社のミドルウェアを利用していたもののDBが待機系に切り替わらない事象が発生。具体的には、稼働系のディスク障害でログ転送が止まったことで待機系のシステムがデータは最新かどうかの保証ができないと判断したんだとか。

そういう意味ではデータベースの障害テストは大事ですね...

終わりに

この記事はここから「なぜ復旧に時間がかかったのか?」を事前に決めていた「稼働系と待機系を手動で切り替える」という方法に固執して「待機系単独でDBサーバを復旧する」という判断が遅れた様子が生々しく書かれていて読み応え抜群。

日経コンピュータ2021年9/30版、おすすめです。