メインコンテンツまでスキップ
NetApp Response to Russia-Ukraine Cyber Threat
In response to the recent rise in cyber threat due to the Russian-Ukraine crisis, NetApp is actively monitoring the global security intelligence and updating our cybersecurity measures. We follow U.S. Federal Government guidance and remain on high alert. Customers are encouraged to monitor the Cybersecurity and Infrastructure Security (CISA) website for new information as it develops and remain on high alert.

スーパー論理ユニットリセット( SLUR )とは何ですか。また、ハング状態から回復するにはどうすればよいですか。

Views:
50
Visibility:
Public
Votes:
0
Category:
data-ontap-8
Specialty:
san
Last Updated:

すべてのとおり  

に適用されます

  • clustered Data ONTAP 8.3
  • FlexPod 

回答

clustered Data ONTAP では、論理ユニット番号( LUN )は、クラスタ内の 1 つ以上のノードにまたがる分散オブジェクトです。Super Logical Unit Reset ( SLUR; スーパー論理ユニットリセット)は、クラスタ化された Data ONTAP SCSI ターゲットによってトリガーされる内部 LUN リセットメカニズムです。SLR は、以前の分散処理がタイムアウトになるというまれなイベントで、 ONTAP 内部で開始されます。これは、自身を一貫した状態に再初期化するために実行されます。

SLURとは何ですか。
  • Super Logical Unit Reset ( SLUR; 超論理ユニットリセット)
  • Data ONTAP 内で自己トリガーされます
  • 整合性のない状態に再初期化するための不整合がある場合に、 SCSIT によってトリガーされます
  • タイムアウトにも対応する分散処理
SLR の間に何が起こるか?
  • LUN グループへの新規メンバーの参加は許可されません
  • 既存のメンバーは LUN グループから脱退できます
  • 処理中のコマンドと新しいコマンドをすべて終了します(完了するまで)。
  • 論理ユニットのクリーンアップ

SLURs は、複数の理由でトリガーできます。次の EMS メッセージは、各状態を示し、 SLR が発生したことを確認するために使用できます。

SLR の開始: :

SURR の開始はscsiblade.lu.int.rst.start EMS 文字列で示されます

Wed May 27 2015 14:32:11 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.start:DEBUG]: Internal reset started on LUN AvV7z?Cl-tME for reason: initiated by peer

SLR の終了: :

SLR の終了はscsiblade.lu.int.loc.rst.end EMS 文字列で示されます

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.loc.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1

SLR 完了: :

クラスタ全体で SLR を使用するには、すべてのノードで SLR を完了する必要があります。SURR 補完はscsiblade.lu.int.rst.end EMS文字列で示されます。

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

つまった SLR :

SLUR 処理が完了しscsiblade.lu.int.rst.hungない場合、論理ユニットはハング状態になり、 EMS ストリングで示されます。

Wed May 27 2015 14:32:41 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.hung:ALERT]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not completed in 30 seconds. Perform a takeover followed by a giveback for the following nodes: node-1
 

クラスタ内の各ノードは、 SURR 開始のために EMS を送信します。メッセージ文字列には理由セクションが含まれています。SLR を実行していないノードは、ピアによって開始されたことを報告します。

[scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p5 for reason: initiated by peer.

: SLR を実行しているノードとリブートが必要なノードには、いくつかの理由があります。

例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p0 for reason: PR OUT bb owner died.

ハングしている SLR が存在するかどうかを確認する方法:

次のコマンドを使用して、コマンドラインから SLR がスタックしているかどうかを確認できます。応答が空の場合、ハングしたスラーはありません。

cluster1::> event log show -messagename *scsiblade.lu*

There are no entries matching your query.

次の例では、 1 つの LUN について複数のメッセージを表示できます。場合によっては、ハングイベントの後で SLR を完了できることもあります。この場合、 LUN アクセスの問題が存在しない場合は、 To /GB を実行する必要はありません。

cluster1::> event log show -messagename *scsiblade.lu*
Wed Jun 15 20:20:13 PDT [node-1: scsit_lu_1: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN AvV7z?Cl-tME for reason: tmr deadman timer expired.
Wed Jun 15 20:21:43 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.hung:alert]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.loc.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1.
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

ハングした SLR からの回復:

:ハングイベントの後に SLUR が完了し、 LUN にアクセスの問題が現在発生していない場合は、テイクオーバー / ギブバックを実行しないでください。

:テイクオーバー / ギブバックが既知の場合、またはスタックしたグループがクラスタ内に存在する可能性がある場合は、テイクオーバー / ギブバックを実行しないでください。 この問題が発生する可能性があるかどうかが不明な場合は、サポートケースを開いて、テイクオーバー / ギブバックを実行しても安全かどうかを検証します。

SURR 処理が応答しなくなった場合、スタックしている SURR をクリアするためにリブートするノードを示す EMS メッセージが表示されます。これまで見られたすべてのケースでは、ハングした SLR をクリアするには、シングルノードリブートで十分です。EMS メッセージには、ハングした SURR 状態から回復するための修復アクションが明確に示されます。上記の Stuck SUREMS の例では、スタック状態の SURR 操作を完了するためにリブートする必要があるノードを示すメッセージが表示されています。

過去に発生した SAN イベントの RCA のデータを収集する方法
:根本原因分析(根本原因分析)が必要な場合は、 KB の RastRace データ収集に従ってください。「 How to collect data for an SAN event that occurred in the rca of a SAN event that the pastrca of a recovery 」(リカバリを続行する前に過去に発生した SAN イベントのData ONTAP セクションの手順 1 を参照してください。

scsiblade.lu.int.rst.hung:ALERTこの問題を解決するには、テイクオーバーを実行してから、 EMS イベントに示されている LUN のギブバックを実行します。上記の例で
は、ノード 1 のテイクオーバー / ギブバックを実行します。

追加情報

N/A

 

Scan to view the article on your device