スーパー論理ユニットリセット( slur )とは何ですか?ハング状態から回復するにはどうすればよいですか?
すべてのとおり
環境
- ONTAP 9.xのリリースを参照してください
回答
clustered Data ONTAP では、論理ユニット番号( LUN )はクラスタ内の 1 つ以上のノードにまたがる分散オブジェクトです。スーパー論理ユニットリセット( slur )は、 clustered Data ONTAP の SCSI ターゲットによってトリガーされる内部 LUN リセットメカニズムです。まれに、以前の分散操作がタイムアウトした場合、 ONTAP 内部でスラールが起動します。これは、整合性のある状態に再初期化するために実行されます。
スラールとは何ですか?
- スーパー論理ユニットリセット(スラール)
- Data ONTAP 内で自動トリガされます
- SCSIT によって、整合性のない状態に再初期化するための不整合が発生した場合にトリガーされます
- タイムアウトが可能な分散処理
スルールの実行中はどうなりますか?
- 新しいメンバーは LUN グループに追加できません
- 既存のメンバーは、 LUN グループから脱退できます
- すべての実行中および新規コマンドを終了します(完了するまで)。
- 論理ユニットのクリーンアップ
スラールは、さまざまな理由でトリガーされる場合があります。次の EMS メッセージはそれぞれの状態を示しており、スラールが発生したことを確認するために使用できます。
スラールの開始:
slur の開始は scsiblade.lu.int.rst.start
EMS 文字列で示されます
Wed May 27 2015 14:32:11 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.start:DEBUG]: Internal reset started on LUN AvV7z?Cl-tME for reason: initiated by peer
に関するネットアップのドキュメントを参照してください。
スラールの終了:
slur の末尾に scsiblade.lu.int.loc.rst.end
は EMS 文字列が表示されます
Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.loc.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1
に関するネットアップのドキュメントを参照してください。
スラール完了:
ルールをクラスタ全体に適用するには、すべてのノードで完了する必要があります。スラリー完了は scsiblade.lu.int.rst.end EMS
文字列で示されます。
Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.
スタックスラール:
スルール操作が完了 scsiblade.lu.int.rst.hung
しない場合、論理ユニットはハング状態になり、 EMS 文字列で示されます。
Wed May 27 2015 14:32:41 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.hung:ALERT]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not completed in 30 seconds. Perform a takeover followed by a giveback for the following nodes: node-1
に関するネットアップのドキュメントを参照してください。
クラスタ内の各ノードから、 slur start の EMS が生成されます。メッセージ文字列には理由セクションが含まれています。slur を実行していないノードは、 peer から開始されたと報告されます。
例 [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p5 for reason: initiated by peer.
: slur を実行しているノードと、再起動が必要なノードは、いくつかの理由のいずれかを示します。
例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p0 for reason: PR OUT bb owner died.
ハングしたスラールが存在するかどうかを検証する方法:
次のコマンドを使用して、コマンドラインからスラールがスタックしているかどうかを確認できます。応答が空の場合、ハングしたスラールはありません。
cluster1::> event log show -messagename *scsiblade.lu*
There are no entries matching your query.
次の例では、 1 つの LUN に関する複数のメッセージを表示できます。状況によっては、イベントがハングした後でスルールを完了させることができます。LUN へのアクセスの問題がなく、 GB への移行を実行する必要もありません。
cluster1::> event log show -messagename *scsiblade.lu*
Wed Jun 15 20:20:13 PDT [node-1: scsit_lu_1: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN AvV7z?Cl-tME for reason: tmr deadman timer expired.
Wed Jun 15 20:21:43 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.hung:alert]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.loc.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1.
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.
ハングしたスラールからの回復:
メモ :停止したイベントが発生し、現在 LUN にアクセスの問題がない場合は、テイクオーバー / ギブバックを実行しないでください。
メモ :テイクオーバー / ギブバックがわかっている場合や、停止しているグループがクラスタ内に存在する可能性がある場合は実行しないでください。 該当するかどうかが不明な場合は、サポートケースを開いて、テイクオーバー / ギブバックを実行しても安全かどうかを確認します。
slur 処理が応答しなくなった場合、スタックされた slur をクリアするために、どのノードをリブートするかを示す EMS メッセージが表示されます。これまでに確認されたどのような場合でも、シングルノードのリブートでハングしたスラールをクリアできます。ハングしたスラール状態からリカバリする修復アクションが EMS メッセージに明記されています。上の例では、スタックした slur EMS を完了するためにリブートする必要があるノードを示すメッセージが表示されています。
メモ: ルート原因 分析 (RCA) が必要
な場合は、 RAStrace データコレクションを KB 単位で参照してください。これは、過去に発生した SAN イベントの RCA のデータを収集してからリカバリを続行する方法です。Data ONTAP セクションの Step 1 を参照してください。
問題 を解決scsiblade.lu.int.rst.hung:ALERT
するには、テイクオーバーを実行し、続けて EMS イベントに示された LUN のギブバックを実行します。上記
の例では、次のノードのテイクオーバー / ギブバックを実行します: Node-1 。
追加情報
N/A