クラウドプロバイダーのネットワークで問題が発生するとプロセスが再起動する
環境
- NetApp CVO
- SPMD
問題
- QPIDD、QDROUTERD、CSHMプロセスが、以下のようなイベントとともにSPMCTL/SPMDによって継続的に再起動されています:
- CSHM
00000055.003618cc 00c8c295 Thu Oct 10 2024 20:57:19 -04:00 [kern_spmd:info:3349] mhost_boot: stop
cshmd with pid 72203 end
00000055.003632c2 00c91439 Thu Oct 10 2024 21:32:08 -04:00 [kern_spmd:info:3349] mhost_boot: start
cshmd begin
00000055.003632c3 00c91439 Thu Oct 10 2024 21:32:08 -04:00 [kern_spmd:info:3349] mhost_boot: exec
cshmd begin
00000055.003632c4 00c91439 Thu Oct 10 2024 21:32:08 -04:00 [kern_spmd:info:3349] mhost_boot: exec
cshmd with pid 83152 end
00000055.003632c5 00c91439 Thu Oct 10 2024 21:32:08 -04:00 [kern_spmd:info:3349] mhost_boot: start
cshmd with pid 83152 end
- QPIDD
00000055.003447c2 00c0a63d Thu Oct 10 2024 06:11:24 -04:00 [kern_spmd:info:3349] mhost_boot: stop qpidd with pid 11978 begin
00000055.003447c5 00c0a63d Thu Oct 10 2024 06:11:24 -04:00 [kern_spmd:info:3349] 0x802605f00: 0: WARNING: spmd::ProcessControlManager: stopProcess:src/process_control_manager.cc:900 Sent signal TERM to stop process (qpidd:11978)
00000055.003447c6 00c0a63d Thu Oct 10 2024 06:11:24 -04:00 [kern_spmd:info:3349] 0x801209f00: 0: INFO: spmd::ProcessControlManager: dumpExitConditions:src/process_control_manager.cc:1053 process (qpidd:11978) exited normally with status 0
00000055.003447c7 00c0a63d Thu Oct 10 2024 06:11:24 -04:00 [kern_spmd:info:3349] mhost_boot: stop qpidd with pid 11978 end
- 場合によっては、1 つ以上のプロセスが最大終了しきい値に達し、次のようなイベントを通知することがあります:
- callhome.spm.process.maxexit:SPMによって管理されているプロセスの最大終了しきい値に達しました