メインコンテンツまでスキップ

スーパー論理ユニットリセット( SLUR )とは何ですか。また、ハング状態から回復するにはどうすればよいですか。

Views:
7
Visibility:
Public
Votes:
0
Category:
data-ontap-8
Specialty:
san
Last Updated:

すべてのとおり  

に適用されます

  • clustered Data ONTAP 8.3
  • FlexPod 

回答

clustered Data ONTAP では、論理ユニット番号( LUN )は、クラスタ内の 1 つ以上のノードにまたがる分散オブジェクトです。Super Logical Unit Reset ( SLUR; スーパー論理ユニットリセット)は、クラスタ化された Data ONTAP SCSI ターゲットによってトリガーされる内部 LUN リセットメカニズムです。SLR は、以前の分散処理がタイムアウトになるというまれなイベントで、 ONTAP 内部で開始されます。これは、自身を一貫した状態に再初期化するために実行されます。

SLURとは何ですか。
  • Super Logical Unit Reset ( SLUR; 超論理ユニットリセット)
  • Data ONTAP 内で自己トリガーされます
  • 整合性のない状態に再初期化するための不整合がある場合に、 SCSIT によってトリガーされます
  • タイムアウトにも対応する分散処理
SLR の間に何が起こるか?
  • LUN グループへの新規メンバーの参加は許可されません
  • 既存のメンバーは LUN グループから脱退できます
  • 処理中のコマンドと新しいコマンドをすべて終了します(完了するまで)。
  • 論理ユニットのクリーンアップ

SLURs は、複数の理由でトリガーできます。次の EMS メッセージは、各状態を示し、 SLR が発生したことを確認するために使用できます。

SLR の開始: :

SURR の開始はscsiblade.lu.int.rst.start EMS 文字列で示されます

Wed May 27 2015 14:32:11 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.start:DEBUG]: Internal reset started on LUN AvV7z?Cl-tME for reason: initiated by peer

SLR の終了: :

SLR の終了はscsiblade.lu.int.loc.rst.end EMS 文字列で示されます

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.loc.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1

SLR 完了: :

クラスタ全体で SLR を使用するには、すべてのノードで SLR を完了する必要があります。SURR 補完はscsiblade.lu.int.rst.end EMS文字列で示されます。

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

つまった SLR :

SLUR 処理が完了しscsiblade.lu.int.rst.hungない場合、論理ユニットはハング状態になり、 EMS ストリングで示されます。

Wed May 27 2015 14:32:41 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.hung:ALERT]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not completed in 30 seconds. Perform a takeover followed by a giveback for the following nodes: node-1
 

クラスタ内の各ノードは、 SURR 開始のために EMS を送信します。メッセージ文字列には理由セクションが含まれています。SLR を実行していないノードは、ピアによって開始されたことを報告します。

[scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p5 for reason: initiated by peer.

: SLR を実行しているノードとリブートが必要なノードには、いくつかの理由があります。

例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p0 for reason: PR OUT bb owner died.

ハングしている SLR が存在するかどうかを確認する方法:

次のコマンドを使用して、コマンドラインから SLR がスタックしているかどうかを確認できます。応答が空の場合、ハングしたスラーはありません。

cluster1::> event log show -messagename *scsiblade.lu*

There are no entries matching your query.

次の例では、 1 つの LUN について複数のメッセージを表示できます。場合によっては、ハングイベントの後で SLR を完了できることもあります。この場合、 LUN アクセスの問題が存在しない場合は、 To /GB を実行する必要はありません。

cluster1::> event log show -messagename *scsiblade.lu*
Wed Jun 15 20:20:13 PDT [node-1: scsit_lu_1: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN AvV7z?Cl-tME for reason: tmr deadman timer expired.
Wed Jun 15 20:21:43 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.hung:alert]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.loc.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1.
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

ハングした SLR からの回復:

:ハングイベントの後に SLUR が完了し、 LUN にアクセスの問題が現在発生していない場合は、テイクオーバー / ギブバックを実行しないでください。

:テイクオーバー / ギブバックが既知の場合、またはスタックしたグループがクラスタ内に存在する可能性がある場合は、テイクオーバー / ギブバックを実行しないでください。 この問題が発生する可能性があるかどうかが不明な場合は、サポートケースを開いて、テイクオーバー / ギブバックを実行しても安全かどうかを検証します。

SURR 処理が応答しなくなった場合、スタックしている SURR をクリアするためにリブートするノードを示す EMS メッセージが表示されます。これまで見られたすべてのケースでは、ハングした SLR をクリアするには、シングルノードリブートで十分です。EMS メッセージには、ハングした SURR 状態から回復するための修復アクションが明確に示されます。上記の Stuck SUREMS の例では、スタック状態の SURR 操作を完了するためにリブートする必要があるノードを示すメッセージが表示されています。

過去に発生した SAN イベントの RCA のデータを収集する方法
:根本原因分析(根本原因分析)が必要な場合は、 KB の RastRace データ収集に従ってください。「 How to collect data for an SAN event that occurred in the rca of a SAN event that the pastrca of a recovery 」(リカバリを続行する前に過去に発生した SAN イベントのData ONTAP セクションの手順 1 を参照してください。

scsiblade.lu.int.rst.hung:ALERTこの問題を解決するには、テイクオーバーを実行してから、 EMS イベントに示されている LUN のギブバックを実行します。上記の例で
は、ノード 1 のテイクオーバー / ギブバックを実行します。

追加情報

N/A