AIOpsによるサービスのセルフヒーリング

AIOps とは?

人工知能(AI)という言葉はあらゆるシーンに登場し、日々の生活の中でも、その単語を目にする機会が多くなりました。 デジタルの活用範囲は広がりあらゆるところで、ソフトウェアが使われています。製造業、医療、スポーツ – さまざまな業界で、ソフトウェアが課題を解決するために活躍しています。

その活躍の場を更に推し進める技術の一つとして注目されているのが、AIOpsです。

AIOpsとはシンプルに言うと、AIを活用したIT運用管理のことで、ビッグデータと機械学習を組み合わせ、イベントの相関、異常検知、因果関係の特定などのIT運用プロセスを自動化することです。

Gartner Glossary では AIOps を以下のように定義しています。

Aiops (artificial Intelligence For It Operations) 
AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination.

引用元: https://www.gartner.com/en/information-technology/glossary/aiops-artificial-intelligence-operations

AIOpsによるセルフヒーリング

システムの運用監視に携わるエンジニアが、一日を穏やかに過ごすことはほとんどありません。

一日に、1,000件、5,000件、10,000件、あるいはそれ以上のインシデント・アラームを目にすることがありますが、どれが俗に言う「ノイズ」で、どれが「意味のあるもの」かを判断するのは担当している運用エンジニアに任されています。

担当エンジニアは、正確な判断を行うために、クラウド、仮想化されたアプリケーション、Webサイト、マシンログなど、さまざまなかつ膨大なデータの中から必要なものを見つけ出す必要があります。

それができてようやく、特定されたインシデントに優先順位をつけ、最も緊急性の高いもとそうでないものの判断ができるのです。

このような状況を改善するために、サービス運用の現場には、インシデント管理を自動化する次世代AIOpsが必要不可欠となっています。

インシデント管理の自動化には、k-means クラスタリングやランダムフォレストなどの洗練されたモデルが採用され、異常検知やアラームノイズの低減などの分析技術をベースにしています。次世代AIOpsは、10,000件のアラームを迅速に処理し、トリアージ、優先順位付け、相関付け、問題解決をほぼリアルタイムで行うことができます。

ビジネスの変革には多くのインシデントが伴う

自動化されたインシデント管理は、デジタル化とデジタルオペレーションへの移行を成功させたいと考えている企業にとって必須の機能です。

企業はデジタルトランスフォーメーションに多額の投資を行い、センサーを搭載した機械や自己認識型のプロセスを導入し、顧客には、「常時接続型-“always-on”」のサービスを提供しようとしています。これらのサービスの最終的なゴールはどのようなものなのかはわかりません。

ただ、「立ち止まることは、競争力を失うリスク」であることがわかっているだけです。

そして、トランスフォーメーションの過程で、テクノロジーの衝突が起こることは容易に予想できます。

新しいシステムやプロセスは、膨大なシグナルを作りだし、かつてないほど複雑なデータを生み出しています。それらは、これまでに経験したことのないような問題を作り出し、熟練の運用チームでも手に負えないような状況が発生します。

例えば、ComcastCox Communicationsのような最新のマルチプルシステムオペレーター(MSO)がその例です。このような企業は、複雑なサービス提供フレームワークを運用して、さまざまなアクセス技術やデバイスをサポートし、音声、データ、セキュリティ、ビデオなどのさまざまなサービスを提供しています。

サービスの中には、クラウドで展開されるサービスもあれば、サードパーティから直接提供されるサービスもあります。また、大規模なネットワークセグメントは仮想化されているため、ネットワークコンポーネントに対する直接の可視性が低下し、問題を検出したり、サービスや顧客への影響範囲を特定することが困難になっています。

事前学習の効果

AIOpsによる自動化されたインシデント管理は、異常検知から得られた情報を利用しています。異常検知は、時間経過に伴う異常パターンを発見し、プロセスに依存した異常を検知します。

自動化されたインシデント管理は、問題を引き起こしているイベントパターンを特定することで、独自の分析機能を追加します。

  • 新たな異常を既存のインシデントと関連付けることで、アラームノイズを減らし、根本原因の分析を行います。
  • サービス品質やお客様の活動に影響を与えているか、与える可能性があるかに応じて、インシデントの優先順位を決定します。それを実現するには、リスク分析を適用し、リアルタイムで予測ロジックを起動できることが必要です。
  • 解決策を集約し、インシデント・パネルにアクティビティを表示します。識別されたリスクの性質に基づいて、ビジネスプロセス管理を介して修正のアクションを行ったり、エンジニアに修復の指示をだします。
  • 時間の経過とともにナレッジベースが追加され、既知の解決策や学習した回避策がメタデータとして蓄積されていきます。

例えば、マルチプルシステムオペレーターMSO)では、自動化されたインシデント管理により、ネットワーク・パケットの異常やネットワーク・スイッチの信号など、一見するとランダムなイベントを分析し、サービス・インシデントが特定されることがあります。インシデントの原因が、「ネットワークスイッチそのものではなく、アプリケーションの誤動作である。」ということが特定できるのです。

問題解決の迅速化

AIOpsを活用した自動化されたインシデント管理は、お客様の満足度を高め、ヘルプラインを使わずに済むことに加えて、以下のように変革するビジネスに長期的な利益をもたらします。

リソースの活用と運用パフォーマンスの向上 – 自動化された変更管理は、変革に直面してもコアテクノロジーの信頼性を維持できます。それは設備投資を最大限に活用するための最良の方法です。

地理的な制約の排除 – 変更管理の自動化は、地理的な場所に関係なく、問題を分析して解決するための共通言語を運用担当者に与えます。これは、組織が大きくなり、運用スタッフが現場や別のオフィスで働くようになると、より重要になります。

意思決定ツリーの上位に人財を配置する – インシデント管理の自動化は、低レベルの人件費を削減し、運用エンジニアのスキルを有効に活用します。エンジニアは「これはどのスイッチに接続されているのか」といった会話ではなく、「これによって影響を受ける可能性のある顧客は誰か」と尋ねることができるようになります。

組織の俊敏性を高める – CEOやその他の経営陣は、投資がの効果や、業務への貢献を知りたがっています。インシデント管理の自動化は、デジタルトランスフォーメーションの時代に重要なKPI、「ビジネスアジリティ」を向上させるのに役立ちます。

AIOpsがサービス運用の中心に

IT運用のサービス管理に組み込まれたAIOpsアプリケーションは、ITサービスを自己回復型の運用環境に大きく近づけます。

AIOpsは、プロアクティブなモニタリング、異常検知、根本原因の分析と発見、および自動化されたクローズドループの運用を実現します。

AIOpsは、サービスを提供するエコシステム全体の可視性を向上させ、問題を特定して修復します。さらに、同じ問題に取り組む複数の運用グループの作業重複を排除し、効果的な分析と自動化によって既存システムをよりスマートに、より価値あるものにします。

ITサービス運用に課題をお持ちの方は、ぜひ一度、VIA AIOpsをお試しください。

VIA AIOpsについて

VIA AIOps は、サービス提供を行うすべてのレイヤーにわたって洗練された自動化を可能にする次世代の AIOps アプリケーションで、顧客満足度を向上させ、IT運用の最適化を行います。

VIAは、IT運用のエコシステム全体のオブザーバビリティと、説明可能なAIを提供しAIOpsによる自動化を促進します

サイロ化された運用エコシステムに自動化、ノイズリダクションを提供し、運用コストを削減。より迅速な問題解決を可能にすることで、顧客満足度を向上します。