E シリーズのパフォーマンスが低下し、構成でホストのアクセスに問題が生じる可能性があります トレイ / ドロワー損失の保護が無効になっている
環境
- SANtricity OS 11.70 、 11 、 70R1 、および 11 、 70R2 ( 11.70R3 より前)を実行する E シリーズプラットフォーム。
- StorageGRID アプライアンスが含まれています。
- トレイ / ドロワー損失の保護が無効になっている動的ディスクプール( DDP )。
- SANtricity システムマネージャ で 、 [ ストレージ ] > [ プールとボリュームグループ ] > [ 設定の表示 / 編集 ] の順に選択します
- DDP 内の各シェルフまたはドロワーに同じ数のドライブを配置した Dynamic Disk Pools ( DDP )。
問題
ストレージ側の I/O の遅延によって、パフォーマンスの低下、ホスト側の接続の問題、場合によってはコントローラのリブートなどのさまざまな症状が発生することがあります。
パフォーマンス低下の結果として報告される潜在的な問題は以下のとおりです。
注:以下のシグネチャは、この問題に固有のものではなく、 I/O 遅延やその他のストレージ関連操作によって生じる可能性がある現象を示しています。 |
- 高い I/O レイテンシによってパフォーマンスが低下していることがわかります。ホスト側(イニシエータ)が E シリーズストレージアレイへの高レイテンシを検出しましたが、 OS やアプリケーションによってはボリュームが異なるアラートの対象となる可能性があります。一部のアプリケーションでは通知されない場合があります。(たとえば、 VMware はストレージ接続関連のイベント
"Lost access to volume xxxxxx (yyyyy) due to connectivity issues."
を報告することがあります。 - 古い I/O によるコントローラのリセットE シリーズのバンドルファイル
"state-capture-data"
に"excLogShow"
は、で次の例外が含まれます。
Reboot due to ancient IO, scsiOp=0x1031756c0 poolId=0 opCode=8a
age=330000ms
2020-12-03 18:44:16.892205
rebootReason 0x429c002, rebootReasonExtra 0x0
- ソフトウェア watchdog タイムアウトによりコントローラがリセットされました。E シリーズのバンドルファイル
"state-capture-data"
に"excLogShow"
は、で次の例外が含まれます。- この原因としては、ドライブ障害が原因で、 watchdog タイムアウトにより、両方のコントローラが時間をずらしてリブートする場合があります
Exception from kernel core:
2020-11-13 11:03:31.500638
WATCHDOG TIMEOUT
Backtrace of the crashed thread:
#0 0x00007fa2de5a2067 in raise () from /lib/x86_64-linux-gnu/libc.so.6
No symbol table info available.
#1 0x00007fa2df28a4ea in vkiPanic () from /raid/lib/libeos-System.so
No symbol table info available.
#2 0x00007fa2df28a62a in _vkiReboot () from /raid/lib/libeos-System.so
No symbol table info available.
#3 0x00007fa2df279bf4 in watchdogTimerService () from /raid/lib/libeos-System.so
E シリーズストレージアレイのサポートログには、ネットアップサポートがシステムでこのように正確な問題が表示されていることを確認するための署名がいくつかあります。
- 11.70 より前のリリース( 11.5.x または 11.60 .x )からストレージアレイをアップグレードした場合は、アップグレードプロセス中に次のパニック状態が発生します。パニック状態になるとアップグレード中にコントローラがリセットされますが、 E シリーズストレージアレイへのアクセスが原因で完全に失われることはありません。これ
"state-capture-data"
"excLogShow"
は、コマンド出力の E シリーズのバンドルファイルに記載されています。
xx/yy/zz-xx:yy:zz (ProcessHandlers): PANIC: resume is being called on WORKING!
xxxx-xx-xx xx:xx:xx.560320
resume is being called on WORKING!
- E シリーズストレージアレイが 11.70x リリースに導入
trace-buffers.7z
されたあと、 E シリーズのデバッグキューログにコントローラ間の通信の遅延が記録されます()。次に例を示します。
02/24/21-23:25:29.086164 00 raidSched1 sas c0001 sas iditn:071 idcmd:122471322 req_idx:0204 skey:x05 asc:x26 ascq:x00
scsiStatus:2 mf:0x11bb97740 sasSendSense: Sense data
02/24/21-23:25:29.086172 00 raidSched1 sid c0001 SCSICmd <=E= iditn:071 idcmd:122471322 ioId:x00f87f7e devnum:x00f00011 lun:000 buf:0x1017c36c0 Bm IAC(C9) Target CkCond IllReq 2600 00 CR:False r
tUs:1012612 ageUs:1012614
CDB:c9 01 00 00 00 05 af e3 00 00 00 30
02/24/21-23:25:29.086192 00 raidSched1 eel hffff LogError ioId:x00f87f7e errId:x0 DST_DRV_CHK_COND(x10a) origin:Internal(3) fru/t/s:x0b0011
errSpecInfo:LDD-x580000 detectpt:x0000
02/24/21-23:25:29.086194 00 raidSched1 hid c0001 hid <=E=lid iditn:071 idcmd:122471322 action:FailCmd(2) failCmdReason:LastErr (4)
02/24/21-23:25:29.086197 00 raidSched1 hid c0001 IO Finish iditn:071 idcmd:122471322 ioId:x00f87f7e buf:0x1017c36c0 ioDone:_Z13dlbIOCompleteP3buf FailCmdReason:LastErr (4) #total:1 #errors:1 activeMs:1012/41000
02/24/21-23:25:29.086198 00 raidSched1 hid c0001 ErrorRecord iditn:071 idcmd:122471322 ioId:x00f87f7e buf:0x1017c36c0 #ticks:00254 02/24/21-23:25:28.620-02/24/21-23:25:29.652 Target CkCond IllReq 26/00 action:FailCmd(2)
02/24/21-23:25:29.086200 00 raidSched1 hid cffff <=E=hid ioId:x00f87f7e buf:0x1017c36c0 DevNum:x00f00011 bOp:IacResponse b_error:17 iodone:_Z13dlbIOCompleteP3buf uSec:1012186
02/24/21-23:25:30.096876 00 iacTask2 ras ffff RPM IACsend response failed - tgtDev: x00f00011 msgId: 372707 error: No target (0x3)
- E シリーズストレージアレイが 11.70x リリースに導入
trace-buffers.7z
されたあと、 E シリーズのデバッグキューログ()にボリュームレベルの高レイテンシの兆候が見られます。次に例を示します。
02/24/21-23:44:37.470583 00 raidSched1 vdm v0000 RVol RV 0x0, Op W Max Response time 4261676 us timeframe:66796 secs
02/24/21-23:45:40.940053 00 raidSched2 vdm v0000 RVol RV 0x0, Op R Max Response time 1018005 us timeframe:1413 secs
02/24/21-23:53:41.245400 00 raidSched1 vdm v0000 RVol RV 0x0, Op R Max Response time 2012095 us timeframe:480 secs
02/24/21-23:58:08.991755 00 raidSched1 vdm v0000 RVol RV 0x0, Op W Max Response time 4027504 us timeframe:811 secs