RAID6構成のシステムで、同時に3本のHDDが飛ぶという事例

RAID構成のシステムを導入するとき、より安全な構成を選ぼうとすると付いて回るのがコスト問題。とくにRAID5じゃダメなのかとか、RAID6だとコスト効率悪いとか、冗長性はあるにこしたことはないが、そのコストの説明が必要になる。そういうときに、説得力を出すのが、過去の障害事例だ。特に、有名どころの企業かつ被害が大きいものが有効だ(障害が発生した企業にはもうしわけないけど)。

そんな中で、三菱UFJニコスのシステムで発生した2017年末のシステム障害は、RAID6構成のシステムで、同時に3本のHDDが壊れて停止するという稀有な事例だ。

http://tech.nikkeibp.co.jp/it/atcl/news/17/020803126/

稀有な事例だけど、HDDのロットによっては、同じロットだと壊れやすいとか、よくある話。システムに絶対大丈夫なものはない。けれど、偉い人はどうしても、安全性とコストを天秤にかける(それが経営なんだから、それは仕方ない)。そういうときに、コストがかかっても安全なものを選択してもらうための説得材料が重要。割り切りとして、安価で済ます分、システム停止のリスクを容認するのか、それともコストをかけて、発生するかどうかわからないリスクに備えるのか。そのさじ加減はなんとも言えない。だけど、この事例は、コストを削りすぎるときのリスクを警鐘するには、ちょうどいいのではないかと思う。

ちょっと話はかわるが、こういう事例をみると、壊れた後の復旧策や手順は重要ということを再認識させてくれる。想定外に対応できるだけの運用体制は維持しておかないといけないね。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする