スーパー論理ユニットリセット( SLUR )とは何ですか。また、ハング状態から回復するにはどうすればよいですか。
すべてのとおり
に適用されます
- clustered Data ONTAP 8.3
- FlexPod
回答
clustered Data ONTAP では、論理ユニット番号( LUN )は、クラスタ内の 1 つ以上のノードにまたがる分散オブジェクトです。Super Logical Unit Reset ( SLUR; スーパー論理ユニットリセット)は、クラスタ化された Data ONTAP SCSI ターゲットによってトリガーされる内部 LUN リセットメカニズムです。SLR は、以前の分散処理がタイムアウトになるというまれなイベントで、 ONTAP 内部で開始されます。これは、自身を一貫した状態に再初期化するために実行されます。
SLURとは何ですか。
- Super Logical Unit Reset ( SLUR; 超論理ユニットリセット)
- Data ONTAP 内で自己トリガーされます
- 整合性のない状態に再初期化するための不整合がある場合に、 SCSIT によってトリガーされます
- タイムアウトにも対応する分散処理
SLR の間に何が起こるか?
- LUN グループへの新規メンバーの参加は許可されません
- 既存のメンバーは LUN グループから脱退できます
- 処理中のコマンドと新しいコマンドをすべて終了します(完了するまで)。
- 論理ユニットのクリーンアップ
SLURs は、複数の理由でトリガーできます。次の EMS メッセージは、各状態を示し、 SLR が発生したことを確認するために使用できます。
SLR の開始: :
SURR の開始はscsiblade.lu.int.rst.start
EMS 文字列で示されます
Wed May 27 2015 14:32:11 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.start:DEBUG]: Internal reset started on LUN AvV7z?Cl-tME for reason: initiated by peer
。
SLR の終了: :
SLR の終了はscsiblade.lu.int.loc.rst.end
EMS 文字列で示されます
Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.loc.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1
。
SLR 完了: :
クラスタ全体で SLR を使用するには、すべてのノードで SLR を完了する必要があります。SURR 補完はscsiblade.lu.int.rst.end EMS
文字列で示されます。
Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.
つまった SLR :
SLUR 処理が完了しscsiblade.lu.int.rst.hung
ない場合、論理ユニットはハング状態になり、 EMS ストリングで示されます。
Wed May 27 2015 14:32:41 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.hung:ALERT]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not completed in 30 seconds. Perform a takeover followed by a giveback for the following nodes: node-1
。
クラスタ内の各ノードは、 SURR 開始のために EMS を送信します。メッセージ文字列には理由セクションが含まれています。SLR を実行していないノードは、ピアによって開始されたことを報告します。
例[scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p5 for reason: initiated by peer.
: SLR を実行しているノードとリブートが必要なノードには、いくつかの理由があります。
例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p0 for reason: PR OUT bb owner died.
ハングしている SLR が存在するかどうかを確認する方法:
次のコマンドを使用して、コマンドラインから SLR がスタックしているかどうかを確認できます。応答が空の場合、ハングしたスラーはありません。
cluster1::> event log show -messagename *scsiblade.lu*
There are no entries matching your query.
次の例では、 1 つの LUN について複数のメッセージを表示できます。場合によっては、ハングイベントの後で SLR を完了できることもあります。この場合、 LUN アクセスの問題が存在しない場合は、 To /GB を実行する必要はありません。
cluster1::> event log show -messagename *scsiblade.lu*
Wed Jun 15 20:20:13 PDT [node-1: scsit_lu_1: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN AvV7z?Cl-tME for reason: tmr deadman timer expired.
Wed Jun 15 20:21:43 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.hung:alert]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.loc.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1.
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.
ハングした SLR からの回復:
注:ハングイベントの後に SLUR が完了し、 LUN にアクセスの問題が現在発生していない場合は、テイクオーバー / ギブバックを実行しないでください。
注:テイクオーバー / ギブバックが既知の場合、またはスタックしたグループがクラスタ内に存在する可能性がある場合は、テイクオーバー / ギブバックを実行しないでください。 この問題が発生する可能性があるかどうかが不明な場合は、サポートケースを開いて、テイクオーバー / ギブバックを実行しても安全かどうかを検証します。
SURR 処理が応答しなくなった場合、スタックしている SURR をクリアするためにリブートするノードを示す EMS メッセージが表示されます。これまで見られたすべてのケースでは、ハングした SLR をクリアするには、シングルノードリブートで十分です。EMS メッセージには、ハングした SURR 状態から回復するための修復アクションが明確に示されます。上記の Stuck SUREMS の例では、スタック状態の SURR 操作を完了するためにリブートする必要があるノードを示すメッセージが表示されています。
注過去に発生した SAN イベントの RCA のデータを収集する方法
:根本原因分析(根本原因分析)が必要な場合は、 KB の RastRace データ収集に従ってください。「 How to collect data for an SAN event that occurred in the rca of a SAN event that the pastrca of a recovery 」(リカバリを続行する前に過去に発生した SAN イベントのData ONTAP セクションの手順 1 を参照してください。
scsiblade.lu.int.rst.hung:ALERT
この問題を解決するには、テイクオーバーを実行してから、 EMS イベントに示されている LUN のギブバックを実行します。上記の例で
は、ノード 1 のテイクオーバー / ギブバックを実行します。
追加情報
N/A