"三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障:ITpro"

http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/



ガモフの、不思議な国のトムキンスだったかな、こんなくだりがあった。


「いま、窓の外を男性が通ったね。次に通りかかる人が人が男である確率は?」
「1/2だ」
「二人続けて男の確率は?」
「1/4」
「じゃあ、50人続いて男の確率は?」
「兆分の1もないな」
「じゃあ、男が50人歩いてきたら飯奢ってくれ」
「ええよ」
そこに軍楽隊の響きが聴こえてきた
(ので、男性だけが行進してきて飯を奢らされる羽目になった)


っていう、つまり、独立事象だと考えていても、独立事象じゃないこともあるよっていう小話だ。


RAID5なら1台、RAID6なら2台が同時に壊れても大丈夫、って思っていても、同時に追加したアレイだと、全ドライブが同じように劣化し、全ドライブが同時期に破綻しエラーを出す可能性がある。
「1年間、HDDが故障する確率は3%*1くらいだ。1年のうち、二台同時に故障する可能性は0.1%。同日に二台壊れる可能性は皆無に近い」
なんていうのは、独立事象を期待した計算なので、実際にはそうもいかないという。

追記

 よくあるのが、エラーが起きる→リビルド→猛烈なアクセスが発生する→他のドライブにエラー →ダウソ
 らしい。
 また、不良セクタの伝搬っていう現象も起きるらしい。
http://www.dell.com/support/article/jp/ja/jpdhs1/sln263054
 ともあれ、ドライブの障害は独立事象とは限らないというアレで。

 

*1:適当に挙げた数字。無根拠