仮想化エンジニア奮闘記

Citrix や VMware といったサーバー・デスクトップ仮想化の最新技術や設計情報の検証結果を共有します。(本ブログは個人のものであり、所属する会社とは関係ありません。)

vSANやるぞー!(4)-vSAN障害時の挙動(Cache Disk障害時)①

皆さまお疲れ様です。

 

今回はvSAN障害時の挙動について記事にします。ストレージではRAIDで可用性を提供しますが、vSANではどうなるのか?今回はCache Diskに焦点を当てて障害時の挙動を見ていきましょう。

 

ポータルへ戻る場合はこちら

次:Cache Disk障害時の挙動②(ESXi3台、FTT=1)

 

【結論】Cache Diskが属するDisk Groupがエラーとなり、エラーとなったDisk Group内のキャパシティデータは無効となる。FTT=1以上であれば、Cache Disk障害時も仮想マシンは起動し続ける。FTT=0で、障害が発生したCache Diskが属するDisk Group内のCapacity Diskに保存された仮想マシンは停止する。

 

とまぁ結論は ↑ の通りなのですが、実際にHOLで挙動を確かめてみようと思います。

 

、、、と思ったのですが、HOLはNested ESXiで構成されており、疑似障害スクリプト(vsanDiskFaultInjection.pyc)が使えず、かつ親のESXiをいじることができないため障害を起こせませんでした。ですので結局家のNested ESXi環境を使用しました。

 

【自宅の環境について】(Nested ESXi 環境です)

f:id:kenta53682:20171111205334p:plain

 

なお、vSANのディスク障害状態は、下記2パターンがあります。今回は親のESXiでNested ESXiの仮想ディスクを削除して疑似障害(ディスクが抜けた障害)を発生させるため、障害表示は「Absent」となる想定です。

f:id:kenta53682:20171105203358p:plain

 

 

①Step 1 FTT=0の仮想マシンが属するCache Disk障害

ESXi 3台(すべて仮想マシン)、ESXi #1上にあるFTT=0の仮想マシンが稼働している状態で、ESXi #1のCache Diskを仮想マシンから削除します。

f:id:kenta53682:20171111205455p:plain

 

予想:Cache Disk が Absent 状態となり、仮想マシンが停止する。

 

1) 障害発生前の状態。CentOS7.3はESXi #1(10.17.101.71)上にいます。

f:id:kenta53682:20171105194544p:plain

 

2) ここで、ESXi #1の仮想マシン設定を編集し、Cache Disk を削除します。

f:id:kenta53682:20171105195022p:plain

 

3) vSANのステータスが下記に変わりました。ディスクの管理画面からESXi #1のCache Diskがエラーになり、ディスクグループが見えない状態となりました。

f:id:kenta53682:20171105200939p:plain

 

4) 仮想マシンコンポーネントも「なし=Absent」状態になっています。(日本語表示だと分かりづらいので英語表示も合わせて掲載します。)

【日本語表示】

f:id:kenta53682:20171105203844p:plain

【英語表示】

f:id:kenta53682:20171105204321p:plain

 

5) データストア画面を見ても、「リストは空」状態となります。

f:id:kenta53682:20171105201533p:plain

 

6) 仮想マシンはパワーオン状態に見えるものの、コンソールを接続しても接続できません。(勿論Pingも飛びません。)

f:id:kenta53682:20171105201658p:plain

 

というわけで、Step 1では予想通り、仮想マシンが停止しました。

 

 

長くなったので、一旦ここで切らせて頂きます。

次はStep2として、FTT=1の障害時挙動を書きたいと思います。

 

それでは本日は以上となります。ありがとうございました。