Windows ゲスト OS のレポートイベント 129 がデバイス、 \Device\raidport 0 にリセットされました
環境
- Windows Server 2008 以降
- VMware ESXi 6.5
- E シリーズ
- FAS/AFF
- NetApp HCI
- iSCSI
問題
- イベント ID 129 が報告され、自動的に回復すると、複数の Windows Server 2016 VM が無応答状態になります。
- 影響を受ける VM は、主に CCTV ビデオ録画に使用されます(書き込み負荷が高い)。
- この環境には、 E シリーズと FAS ストレージコントローラが混在しており、そのうち E シリーズは主に CCTV ビデオ録画に使用されます。このため、 E シリーズベースのデータストアのほとんどが影響を受けます。
- イベント ID 129 は FAS ベースの VM でも確認されますが、頻度は低くなります。
- ESXi ホストと E シリーズコントローラ間のパケットキャプチャで、イニシエータが内部の SCSI 読み取り要求を中止していることが示されます(最大 7 ミリ秒)。
例:
VMkernel ログからの抜粋:
2020-05-04T14:43:08.215Z cpu54:65940)NMP: nmp_ThrottleLogForDevice:3616: Cmd 0x88 (0x43959767ba40, 9089744) to dev "naa.600a098000fb3005000004355d6f1da3" on path "vmhba64:C2:T1:L5" Failed: H:0x8 D:0x0 P:0x0 Invalid sense data: 0x0 0x0 0x0. Act:EVAL
2020-05-04T14:43:08.215Z cpu54:65940)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600a098000fb3005000004355d6f1da3" state in doubt; requested fast path state update...
2020-05-04T14:43:08.215Z cpu54:65940)ScsiDeviceIO: 2965: Cmd(0x43959767ba40) 0x88, CmdSN 0xffffd2880bfd9210 from world 9089744 to dev "naa.600a098000fb3005000004355d6f1da3" failed H:0x8 D:0x0 P:0x0
2020-05-04T14:43:11.216Z cpu11:9089750)WARNING: VSCSI: 3502: handle 170795(vscsi1:2):WaitForCIF: Issuing reset; number of CIF:16
2020-05-04T14:43:11.216Z cpu11:9089750)WARNING: VSCSI: 2650: handle 170795(vscsi1:2):Ignoring double reset
パケットトレースからの抜粋:
211411 May 4, 2020 14:43:07.493525000 UTC 192.168.20.32 192.168.20.21 44468,3260 SCSI: Read(16) LUN: 0x05 (LBA: 40408422656, Len: 128)
211412 May 4, 2020 14:43:07.500645000 UTC 192.168.20.32 192.168.20.21 44468,3260 Task Management Function (Abort Task)
211413 May 4, 2020 14:43:07.501001000 UTC 192.168.20.21 192.168.20.32 3260,44468 Task Management Function Response (Function complete)