開いているファイルが多すぎるためにMellanoxスイッチが停止しました
環境
- Mellanox SN 2010
- Onyxバージョン3.9.3220
問題
- スイッチがハングし、リブートするまで応答しませんでした。
- CLIにログインできますが、コマンドを実行するためのプロンプトは返されません。
- WebUIにログインできるが、 スイッチを管理できない
- Sysdumpログのサンプル:
SNMPはトラップの送信を継続的に試行していますが、失敗します。
Line 68934: Jul 16 16:13:28 DC-ENCOA-FL5-SN2010-21 snmpd[5488]: [snmpd.ERR]: snmpd: send_trap: Failure in sendto (No route to host)
Line 68935: Jul 16 16:13:28 DC-ENCOA-FL5-SN2010-21 snmpd[5488]: message repeated 8 times: [ [snmpd.ERR]: snmpd: send_trap: Failure in sendto (No route to host)]
Line 68936: Jul 16 16:13:28 DC-ENCOA-FL5-SN2010-21 snmpd[5488]: [snmpd.ERR]: snmpd: send_trap: Failure in sendto (No route to host)
Line 68937: Jul 16 16:13:28 DC-ENCOA-FL5-SN2010-21 snmpd[5488]: message repeated 8 times: [ [snmpd.ERR]: snmpd: send_trap: Failure in sendto (No route to host)]
Line 68938: Jul 16 16:13:28 DC-ENCOA-FL5-SN2010-21 snmpd[5488]: [snmpd.ERR]: snmpd: send_trap: Failure in sendto (No route to host)
その結果、次のログは、開いているファイルが多数あることを示しています。
Line 68918: Jul 16 16:13:23 DC-ENCOA-FL5-SN2010-21 mgmtd[6612]: [mgmtd.ERR]: lc_launch_pre_fork(), proc_utils.c:726, build 1: Too many open files: Making temp file with base name /vtmp/proc-output