AIOpsの行方
MORE DATA FROM MORE PLACES

1つのインシデント解決に4時間以上を費やすことは、組織にとって大きなリスクです。顧客が離れていくことは当然ですが、その運用に関わるメンバも疲弊し離れていきます。際限なく増え続けるサービスとデータ。指差し確認があたりまえの組織では、この問題がすでに始まっているかもしれません。

デジタルビジネスでは、激しい変化による紆余曲折は当たり前のできごとである。その状況でも方向性を見失わないためには、AIOpsに向けた計画が必要となる。障害物やリスクを取り除きアドバンテージを理解した上で、どうAIOpsに向かうのか。

前回の記事では、AIOps が提供する組織変革のための3つのアドバンテージを紹介した。今回は実際にAIOpsで行う施策を見ていきたい。

“運用チームの70%がパフォーマンス監視に6つ以上のツールを使用し、さらにハイブリッド環境を維持するために複雑なツールを使用します。”

70%

6つ以上の監視ツールを使用している

34%

過去3年間にサービス停止等の深刻なトラブルを経験した

70%

IT運用にハイブリット環境を使用している

施策 その1. 全体を可視化する

より多くの場所からのより多くのデータを

 大多数の企業は、IT環境を維持するために複数の監視ツールを使い、サービスが増えれば、監視ツールも増やしている。特定のサービスに特化したドメイン重視型の監視ツールは、深い洞察を提供する代わりに、膨大なデータのサイロを生み出している。

バラバラに動き続け増え続ける監視ツールのデータサイロは、ITの運用を妨げるだけでなく、最終的にビジネスから成長と自由を奪うことになる。

膨大なデータから、ノイズを取り除き、システムの修復や改善に活用するには、クロスドメイン分析が必要となる。

データサイロをなくし、クロスドメインの分析をする。平均修復時間(MTTR)の改善に取り組む。

AIOps の施策 その1は、データサイロをなくし、プロアクティブな監視を実現することだ。

1つのインシデントの解決に4時間以上を費やしてしまうと、組織にとって大きなリスクがあることがわかっている。顧客が離れていくことは当然だが、その運用に関わるメンバも疲弊し離れていくことだろう。際限なく増え続けるサービスとデータ。運用メンバが指差し確認でデータの関連付けをしているような組織では、この問題はすでに始まっているかもしれない。

AIOpsは、AIと機械学習により、人間が関与するデータの数を抑えてくれる。人間は本当に必要なデータだけを見て適切なアクションを取れば良い。そうすることで、必然的にリソースの効率化と生産性の向上が生まれてくる。心理的安全性だってもたらしてくれるはずだ。

  1. サイロ化されたシステムからデータを収集する
  2. 異なるソースや異なるドメインのデータを相関する
    • 生ログ、時系列メトリック
    • 非同期イベント
    • APM、ITIM、ITSM、 EMS/NMS
  3. ダッシュボードによる可視化で、理解と価値の実現を簡素化する 

施策 その2. 予測と根本原因の特定

すすむ先にある道を知る

これまでのIT運用は、月のない夜に霧の多い山道を走ってきたようなもので、先の見えない道のりをゆっくりと(そして怯えながら)進んできた。ギヤをあげ、速度をあげるには、暗闇を照らし進むべき方向を照らすライトが必要だ。

データを行動可能な情報にする

AIOps による施策その2は、集めたデータの相関から問題の検出や予測を行うことだ。高度な視覚化と予測は、インシデントを迅速に解決できるようにする。その成熟度が高まれば、トラブルの早期発見だけでなく、問題の根本原因の特定もできるようになる。

データを行動可能な情報にする取り組みは、組織全体の改善のためには非常に重要である。

予測を活かし、視覚化の価値を高める

繰り返し発生するパターンを読み取り、気づきを与える質の高い情報を提供する。データからの予測や時系列のイベント情報からパターンを読み取ることは AIOpsの得意とする分野で、予期される動作やしきい値からの逸脱を検出できる(アノマリー検出)。顧客やサービスに影響を与えるような問題を検知することはビジネス上の大きなアドバンテージとなる。

AIOpsプラットフォームは、検出、相関、機械学習の機能を組み合わせて、IT運用チームに有意義な洞察を提供する。それにより生産性が向上し、膨らみ続けている運用コストの削減も見込めるようになる。

施策 その3. 人間の介入を減らし速度を上げる

アクション自動化を取り入れETA を把握する

Estimated Time of Arrival – 推定到着時刻は、ビジネスの種類に関わらず重要な指標である。だからといって闇雲にETAを減らしても、ミスや間違いを誘発するだけで、不必要なリスクを犯すことになる。気合や根性でなんとかできた時代はとっくに終わったのだ。

デジタルなビジネスにとって、ETAはさらに重要な指標となっている。顧客は、すべてのトランザクション、アプリケーションが24時間365日「On Time Arrival – 定刻どおり」であることを期待し、「遅い」「重い」が大嫌いなのだ。

リスクを増やすことなく、時間に敏感なビジネスプロセスをより安定して届けられるようになる

AIOps の施策 その3 は、日常の IT 運用タスクをより迅速に、より確実に実行することだ。AIと機械学習によりアクションを自動化、ITの生産性を高め、運用メンバのストレスを軽減する。トラブルシューティング、パフォーマンス管理と監査やコンプライアンス関連のタスクは、人間の介入なしでも実行できるケースがある。AIOpsをIT運用に適用し、迅速な根本原因の分析、キャパシティ管理、インフラ管理ですぐに効果を発揮できる。

  • AIOps は、平均修復時間(MTTR)を数時間から数分に削減する。
  • AIOps は、最適なインフラリソースの計画・予測と負荷管理に活用できる。
  • 顧客が期待する応答時間を達成し、満足度向上になる。
  • 新しいサービス提供(TTNS – time to new service)までの時間が劇的に改善される。
  • クローズドループの自動化が進めば、トラブルの自己修復も可能となる
  • 新しいビジネスをより早く収益化できることにもつながる。
  • 安定した収益とビジネス継続性の工場にもなる。

AIOpsで実施する典型的な施策を3つあげたが、これらは「サイロの破壊」「予測と検知」「アクション自動化」であり AIOps の3つのマイルストンである。

AIOps の取り組みは、すぐに大きな成果を見込めるようなものではない。小さく始めて、チームや組織でその効果と価値を確認しながら、徐々に成熟度を上げていく必要がある。そして、AIOpsの成熟度が高まれば、IT運用はコストセンターからビジネス戦略上の重要なパートナーとなるだろう。

Full Stack AIOps Platform

VIA これ一つですべてがそろう All-In-One AIOps プラットフォーム

Ingest

Analyze

Visualize

Predict

Automate