ネットワーク分離が原因でStorageGRIDアプライアンスSG5700が予期せずリブートする
環境
- NetApp StorageGRID 11.5以降
- NetApp StorageGRIDアプライアンスSG5700
問題
StorageGRID SG5700ノードが何らかの理由で自動的にリブートします。
ノードログ(/var/log/storagegrid/nodes/<nodename>.log
base-OS内)には、次の情報が表示されます。
[2021-06-14T12:36:14.818704] INFO -- Possible network isolation: Node has no contact with other nodes. If this warning persists, use the /usr/sbin/add_node_ip.py command to tell this node the address of another node in the grid. See the Recovery and Maintenance Guide for details.
[2021-06-14T12:36:14.818919] INFO -- 2021-06-14 12:36:14 +0000 | dynip | Possible network isolation: Node has no contact with other nodes.
[2021-06-14T12:36:30.821317] INFO -- Node service caught SIGTERM
[2021-06-14T12:36:30.841484] INFO -- Node service caught SIGTERM
[2021-06-14T12:36:30.841436] WARN -- Got socket error 4 with message Interrupted system call
最初にログに記録された分離イベントと 再起動(SIGTERM)の間には、10分以上の間隔が必要です。