メインコンテンツへスキップ

サーバー側のsfp障害により、ホストが断続的に再起動する。

Views:
142
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
san
Last Updated:

環境

  • Ontap 9
  • RHEL
  • FC
  • Cisco

問題

  • RHEL ホストが断続的に再起動し、以下のイベントとエラーが発生します:

Nov 17 15:41:39 host multipathd: asm!.asm_ctl_vmb: add path (uevent)
Nov 17 15:41:39 host multipathd: asm/.asm_ctl_vmb: failed to get path uid
Nov 17 15:41:39 host multipathd: uevent trigger error
Nov 17 15:41:39 host multipathd: asm!.asm_ctl_vbg5: add path (uevent)
Nov 17 15:41:39 host multipathd: asm/.asm_ctl_vbg5: failed to get path uid
Nov 17 15:41:39 host multipathd: uevent trigger error
Nov 17 15:10:01 host systemd: Removed slice User Slice of root.
Nov 17 15:10:37 host systemd-udevd: worker [113970] /devices/virtual/block/dm-8 is taking a long time
Nov 17 15:10:37 host systemd-udevd: worker [113971] /devices/virtual/block/dm-61 is taking a long time
Nov 17 15:10:37 host systemd-udevd: worker [113972] /devices/virtual/block/dm-6 is taking a long time

  • ホストの再起動前に、トランスポート関連のエラーはvar/log/messages:に記録されます

Nov 17 15:09:31 host kernel: sd 1:0:4:48: [sdlu] tag#1 CDB: Test Unit Ready 00 00 00 00 00 00
Nov 17 15:09:31 host kernel: sd 1:0:4:49: [sdlx] tag#22 FAILED Result: hostbyte=DID_TRANSPORT_DISRUPTED driverbyte=DRIVER_OK cmd_age=0s
Nov 17 15:09:31 host kernel: sd 1:0:4:49: [sdlx] tag#22 CDB: Test Unit Ready 00 00 00 00 00 00
Nov 17 15:09:36 host kernel: sd 1:0:2:7: rejecting I/O to offline device
Nov 17 15:09:36 host kernel: sd 1:0:2:7: [sdda] killing request
Nov 17 15:09:36 host kernel: sd 1:0:2:31: [sdeg] killing request
Nov 17 15:09:36 host kernel: sd 1:0:2:31: [sdeg] killing request
Nov 17 15:09:36 host kernel: sd 1:0:2:7: [sdda] FAILED Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK cmd_age=5s
Nov 17 15:09:36 host kernel: sd 1:0:2:7: [sdda] CDB: Write(16) 8a 00 00 00 00 00 8d 0f e3 87 00 00 00 20 00 00
Nov 17 15:09:36 host kernel: blk_update_request: 5 callbacks suppressed
Nov 17 15:09:36 host kernel: blk_update_request: I/O error, dev sdda, sector 2366628743
Nov 17 15:09:36 host kernel: sd 1:0:2:31: [sdeg] FAILED Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK cmd_age=5s
Nov 17 15:09:36 host kernel: sd 1:0:2:31: [sdeg] CDB: Write(16) 8a 00 00 00 00 00 01 f3 81 74 00 00 00 16 00 00

  • これらのエラーは、利用可能なすべてのマルチパスに影響を与え、ストレージLUNへのパスが「0個」になってしまうため、結果としてターゲットLUNへのIOが完全に失敗します(:)

Nov 17 15:09:36 host multipathd: sdah: mark as failed
Nov 17 15:09:36 host multipathd: xxx: remaining active paths: 3
Nov 17 15:09:36 host multipathd: sdcj: mark as failed
Nov 17 15:09:36 host multipathd: xxx: remaining active paths: 2
Nov 17 15:09:36 host multipathd: sdot: mark as failed
Nov 17 15:09:36 host multipathd: xxx: remaining active paths: 1
Nov 17 15:09:36 host multipathd: sdux: mark as failed
Nov 17 15:09:36 host multipathd: xxx: remaining active paths: 0
Nov 17 15:09:36 host multipathd: sdn: mark as failed

 

  • ストレージ側ではパフォーマンス上の問題は確認されていません。
  • 問題発生時刻中または発生前に、ストレージEMSにそのようなエラーイベントは記録されていません。
  • Cisco SANスイッチにおいて、ホストが接続するインターフェースで、インシデント発生時に信号が途絶しました。
  • オンボーディングログを確認したところ、ホスト接続ポートでRxカウンターの増加が確認されました。これは、接続されているエンドデバイスをさらに調査する必要があることを示唆しています。
  • スイッチ側では、flogi databaseは、ホストの接続インターフェースがスイッチに接続されていないことを示しており、ホストからスイッチへのそのパスの物理層に問題があることを示しています。
  • ケーブルテスト、パッチパネルテスト、サーバー側のSFPを含む物理的な接続チェックを実施します。
     

 

Sign in to view the entire content of this KB article.

New to NetApp?

Learn more about our award-winning Support

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.