Azureの障害に備えて今するべき事 #Azure リレー
2020-10-14
azblob://2022/11/11/eyecatch/2020-10-14-fault-response-000.jpg


毎週水曜日にAzureに関する記事をつなぐAzureリレー第30回をお送りします。
皆様、今日も元気にAzureを使われていますでしょうか。

2020年9月末AzureActiveDirectoryで障害が発生してAzureだけでは無く、o365を含む各種サービスに影響がありました。そんな時に皆様はAzureの障害発生時にどこから情報を集めていましたでしょうか? TwitterやFaceBook等のSNSでしょうか?

この記事では、障害発生時に慌てないように事前にどこから情報を集めて置くべきか確認しておきましょう。

慌てない事

システムで異常を検知して、それが次々と連鎖していくと運用担当者やサービス担当者は非常に焦りますよね?
でもここで焦ってはいけません。自分達は運用担当やサービス担当者として、情報を発信していく立場の人間です。その状況に置いて焦ってしまうと周りから見た時により不安に感じてしまいます。まずは決められた手順に従って最初に確認すべき、今何が発生してるのか、今どういう状態なのかを確認していきましょう。

障害発生時に確認するべき場所

Azureでは障害発生時に大きく2箇所確認する場所があります。AzureステータスAzure Service Healthです。それぞれ用途が違うので一個ずつ確認していきましょう。

Azureステータス

Azureの大規模な障害に対してはAzureステータスのページを参照してる方が多いかなと思います。
こちらは主にサービス機能全体に与える障害やリージョンに対する障害が発生しているか確認時に有効です。
一方で個別の障害に対してどの様な問題が発生しているかを知るには不向きです。

Azureステータスのページ

AzureServiceHealth

そこで代替手段になるのがAzure Service Healthです。

AzureSeriviceHealth

AzureSeriviceHealthでは大枠で以下のような症状を把握することが出来ます。

1:これから発生するAzureのメンテナンスの通知

2:今まさにサービスに影響を与える障害情報

AzureSeriviceHealthについては以下の様に遷移します。

1:Azureステータスのページ、画面左上部分のAzureSeriviceHealthに移動するリンクを押下

もしくは

1:AzurePortalにログイン

2:画面上部の検索窓に"サービス正常性"と入力

AzureSeriviceHealthへの遷移画面

3:検索結果のサービス正常性を押下で遷移

4:自分の意図した障害情報がある場合はリンクを押下して遷移

AzureServiceHealth詳細ページ

問題が発生している場合にリンクを押下すると更に詳細な情報を取得できます。
事象・影響受けるサービス・影響受けるリージョン・影響を受けるサブスクリプション等が記載されています。
また画面右部のリンクからPDFで該当の問題のサマリをダウンロードする事ができます。

さらにServiceHealthの左部のリンクから各種リソースの正常性や正常性のアラートをに設定を入れ込んで仕込んで通知する事も可能です。
システムの異常を能動的に検知するには有効ですので、合わせてそちらの設定も確認してみてください。

ただし、全てのAzure基板上で発生している全てのイベントを拾えるわけでありません。ですのでこのServiceHealthのページだけ見てれば良いわけではありませんのでご注意ください。

次回害障害発生時に備えて

如何だったでしょうか。過去の障害発生時に事実確認に戸惑い対応に時間が多く掛かってしまった、誰にどう相談していいかも解らずサービスへの影響が大きくなってしまった等が発生してしまっていたなら、上記を参考に少しでも早く問題解決に役立て頂ければ幸いです。

もしAzure環境の事でお困り事がありましたら弊社の各種サービスのご利用をご検討ください。24時間365日の自動監視、障害一次対応、その他、色々なサービスを展開中です。

お問合せはお気軽にこちらからどうぞ!