ONTAP のアップグレード後、スイッチのヘルス ステータスが「不明」と表示される
環境
- ONTAP 9
- NVIDIA スイッチ
問題
- ONTAPをアップグレードした後、スイッチヘルスモニタリングサブシステムが「不明」ステータスを報告し、検出開始状態でハングします。
ログ出力の例:
::> system health subsystem show -subsystem switch-health -instance
Subsystem: Switch-Health
Health: unknown
InitializationState: start_discovery
Number of Outstanding Alerts: 0
Number of Suppressed Alerts: 0
Node: <Node-Name>
SubsystemRefreshInterval: 5m
- しかし、スイッチはSNMP経由で正常に監視されていました。
::> system switch ethernet show
Switch Type Address Model
--------------------------- ------------------ ---------------- ---------------
NETAPP-SW1 (9X:XX:XX:XX:XX:XX) storage-network 10.xx.xx.xx MSN2100-CB2FC
Serial Number: MT2302TXXXXX
Is Monitored: true
Reason: None
Software Version: Cumulus Linux version 5.11.0 running on Mellanox
Technologies Ltd. MSN2100
Version Source: SNMP
NETAPP-SW2 (8X:XX:XX:XX:XX:XX) storage-network 10.xx.xx.xx MSN2100-CB2FC
Serial Number: MT2308TXXXXX
Is Monitored: true
Reason: None
Software Version: Cumulus Linux version 5.11.0 running on Mellanox
Technologies Ltd. MSN2100
Version Source: SNMP
- スイッチを削除して再度追加しても問題は解決しません
::*> system switch ethernet delete -device <device_name>
::*> system switch ethernet create -device "<DEVICE_NAME> (<MAC_ADRESS>)" -address <IP_ADDRESS> -snmp-version <SNMP_VERSION> -community-or-username <COMUNITY_OR_USERNAME> -model <MODEL> -type <TYPE> -is-monitoring-enabled-admin <TRUE_OR_FALSE>
- 「cshmd」を再起動しても、開始検出フェーズで停止します