メインコンテンツまでスキップ

E シリーズのパフォーマンスが低下し、構成でホストのアクセスに問題が生じる可能性があります トレイ / ドロワー損失の保護が無効になっている

Views:
5
Visibility:
Public
Votes:
0
Category:
e-series-systems
Specialty:
esg
Last Updated:

環境

  • SANtricity OS 11.70 、 11 、 70R1 、および 11 、 70R2 ( 11.70R3 より前)を実行する E シリーズプラットフォーム。
    • StorageGRID アプライアンスが含まれています。
  • トレイ / ドロワー損失の保護が無効になっている動的ディスクプール( DDP )。
    • SANtricity システムマネージャ 、 [ ストレージ ] > [ プールとボリュームグループ ] > [ 設定の表示 / 編集 ] の順に選択します
  • DDP 内の各シェルフまたはドロワーに同じ数のドライブを配置した Dynamic Disk Pools ( DDP )。

問題

ストレージ側の I/O の遅延によって、パフォーマンスの低下、ホスト側の接続の問題、場合によってはコントローラのリブートなどのさまざまな症状が発生することがあります。

パフォーマンス低下の結果として報告される潜在的な問題は以下のとおりです。

:以下のシグネチャは、この問題に固有のものではなく、 I/O 遅延やその他のストレージ関連操作によって生じる可能性がある現象を示しています。

  • 高い I/O レイテンシによってパフォーマンスが低下していることがわかります。ホスト側(イニシエータ)が E シリーズストレージアレイへの高レイテンシを検出しましたが、 OS やアプリケーションによってはボリュームが異なるアラートの対象となる可能性があります。一部のアプリケーションでは通知されない場合があります。(たとえば、 VMware はストレージ接続関連のイベント "Lost access to volume xxxxxx (yyyyy) due to connectivity issues."を報告することがあります。
  • 古い I/O によるコントローラのリセットE シリーズのバンドルファイル "state-capture-data""excLogShow"は、で次の例外が含まれます。

Reboot due to ancient IO, scsiOp=0x1031756c0 poolId=0 opCode=8a
 age=330000ms
2020-12-03 18:44:16.892205
rebootReason 0x429c002, rebootReasonExtra 0x0

  • ソフトウェア watchdog タイムアウトによりコントローラがリセットされました。E シリーズのバンドルファイル "state-capture-data""excLogShow"は、で次の例外が含まれます。
    • この原因としては、ドライブ障害が原因で、 watchdog タイムアウトにより、両方のコントローラが時間をずらしてリブートする場合があります

Exception from kernel core:
2020-11-13 11:03:31.500638
WATCHDOG TIMEOUT


Backtrace of the crashed thread:
#0  0x00007fa2de5a2067 in raise () from /lib/x86_64-linux-gnu/libc.so.6
No symbol table info available.
#1  0x00007fa2df28a4ea in vkiPanic () from /raid/lib/libeos-System.so
No symbol table info available.
#2  0x00007fa2df28a62a in _vkiReboot () from /raid/lib/libeos-System.so
No symbol table info available.
#3  0x00007fa2df279bf4 in watchdogTimerService () from /raid/lib/libeos-System.so

E シリーズストレージアレイのサポートログには、ネットアップサポートがシステムでこのように正確な問題が表示されていることを確認するための署名がいくつかあります。

  • 11.70 より前のリリース( 11.5.x または 11.60 .x )からストレージアレイをアップグレードした場合は、アップグレードプロセス中に次のパニック状態が発生します。パニック状態になるとアップグレード中にコントローラがリセットされますが、 E シリーズストレージアレイへのアクセスが原因で完全に失われることはありません。これ "state-capture-data""excLogShow" は、コマンド出力の E シリーズのバンドルファイルに記載されています。

xx/yy/zz-xx:yy:zz (ProcessHandlers): PANIC: resume is being called on WORKING!
xxxx-xx-xx xx:xx:xx.560320
resume is being called on WORKING!

  • E シリーズストレージアレイが 11.70x リリースに導入trace-buffers.7zされたあと、 E シリーズのデバッグキューログにコントローラ間の通信の遅延が記録されます()。次に例を示します。

02/24/21-23:25:29.086164 00 raidSched1      sas   c0001 sas      iditn:071 idcmd:122471322 req_idx:0204 skey:x05 asc:x26 ascq:x00
                                     scsiStatus:2 mf:0x11bb97740 sasSendSense: Sense data
02/24/21-23:25:29.086172 00 raidSched1      sid   c0001 SCSICmd <=E= iditn:071 idcmd:122471322 ioId:x00f87f7e devnum:x00f00011 lun:000 buf:0x1017c36c0 Bm    IAC(C9) Target  CkCond IllReq 2600 00 CR:False r
tUs:1012612 ageUs:1012614
                                     CDB:c9 01 00 00 00 05 af e3 00 00 00 30
02/24/21-23:25:29.086192 00 raidSched1      eel   hffff LogError    ioId:x00f87f7e errId:x0 DST_DRV_CHK_COND(x10a)       origin:Internal(3)   fru/t/s:x0b0011
                                      errSpecInfo:LDD-x580000 detectpt:x0000
02/24/21-23:25:29.086194 00 raidSched1      hid   c0001 hid <=E=lid  iditn:071 idcmd:122471322 action:FailCmd(2) failCmdReason:LastErr (4)
02/24/21-23:25:29.086197 00 raidSched1      hid   c0001 IO Finish   iditn:071 idcmd:122471322 ioId:x00f87f7e buf:0x1017c36c0 ioDone:_Z13dlbIOCompleteP3buf   FailCmdReason:LastErr (4) #total:1 #errors:1 activeMs:1012/41000
02/24/21-23:25:29.086198 00 raidSched1      hid   c0001  ErrorRecord iditn:071 idcmd:122471322 ioId:x00f87f7e buf:0x1017c36c0 #ticks:00254 02/24/21-23:25:28.620-02/24/21-23:25:29.652 Target  CkCond IllReq 26/00 action:FailCmd(2)
02/24/21-23:25:29.086200 00 raidSched1      hid   cffff <=E=hid    ioId:x00f87f7e buf:0x1017c36c0 DevNum:x00f00011 bOp:IacResponse   b_error:17 iodone:_Z13dlbIOCompleteP3buf uSec:1012186
02/24/21-23:25:30.096876 00 iacTask2       ras    ffff RPM IACsend  response failed - tgtDev: x00f00011 msgId: 372707 error: No target (0x3)

  • E シリーズストレージアレイが 11.70x リリースに導入trace-buffers.7zされたあと、 E シリーズのデバッグキューログ()にボリュームレベルの高レイテンシの兆候が見られます。次に例を示します。

02/24/21-23:44:37.470583 00 raidSched1      vdm   v0000 RVol      RV 0x0, Op W Max Response time 4261676 us timeframe:66796 secs
02/24/21-23:45:40.940053 00 raidSched2      vdm   v0000 RVol      RV 0x0, Op R Max Response time 1018005 us timeframe:1413 secs
02/24/21-23:53:41.245400 00 raidSched1      vdm   v0000 RVol      RV 0x0, Op R Max Response time 2012095 us timeframe:480 secs
02/24/21-23:58:08.991755 00 raidSched1      vdm   v0000 RVol      RV 0x0, Op W Max Response time 4027504 us timeframe:811 secs

 

 

Sign in to view the entire content of this KB article.

New to NetApp?

Learn more about our award-winning Support

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.
Scan to view the article on your device