AIOpsによるサービスのセルフヒーリング

AIOpsによるセルフヒーリング

システムの運用監視に携わるエンジニアが、一日を穏やかに過ごすことはほとんどありません。

一日に、1,000件、5,000件、10,000件、あるいはそれ以上のインシデント・アラームを目にすることがありますが、どれが俗に言う「ノイズ」で、どれが「意味のあるもの」かを判断するのは担当している運用エンジニアに任されています。

担当エンジニアは、正確な判断を行うために、クラウド、仮想化されたアプリケーション、Webサイト、マシンログなど、さまざまなかつ膨大なデータの中から必要なものを見つけ出す必要があります。

それができてようやく、特定されたインシデントに優先順位をつけ、最も緊急性の高いもとそうでないものの判断ができるのです。

このような状況を改善するために、サービス運用の現場には、インシデント管理を自動化する次世代AIOpsが必要不可欠となっています。

インシデント管理の自動化には、k-means クラスタリングやランダムフォレストなどの洗練されたモデルが採用され、異常検知やアラームノイズの低減などの分析技術をベースにしています。次世代AIOpsは、10,000件のアラームを迅速に処理し、トリアージ、優先順位付け、相関付け、問題解決をほぼリアルタイムで行うことができます。

ビジネスの変革には多くのインシデントが伴う

自動化されたインシデント管理は、デジタル化とデジタルオペレーションへの移行を成功させたいと考えている企業にとって必須の機能です。

企業はデジタルトランスフォーメーションに多額の投資を行い、センサーを搭載した機械や自己認識型のプロセスを導入し、顧客には、「常時接続型-“always-on”」のサービスを提供しようとしています。これらのサービスの最終的なゴールはどのようなものなのかはわかりません。

ただ、「立ち止まることは、競争力を失うリスク」であることがわかっているだけです。

そして、トランスフォーメーションの過程で、テクノロジーの衝突が起こることは容易に予想できます。

新しいシステムやプロセスは、膨大なシグナルを作りだし、かつてないほど複雑なデータを生み出しています。それらは、これまでに経験したことのないような問題を作り出し、熟練の運用チームでも手に負えないような状況が発生します。

例えば、ComcastCox Communicationsのような最新のマルチプルシステムオペレーター(MSO)がその例です。このような企業は、複雑なサービス提供フレームワークを運用して、さまざまなアクセス技術やデバイスをサポートし、音声、データ、セキュリティ、ビデオなどのさまざまなサービスを提供しています。

サービスの中には、クラウドで展開されるサービスもあれば、サードパーティから直接提供されるサービスもあります。また、大規模なネットワークセグメントは仮想化されているため、ネットワークコンポーネントに対する直接の可視性が低下し、問題を検出したり、サービスや顧客への影響範囲を特定することが困難になっています。

事前学習の効果

AIOpsによる自動化されたインシデント管理は、異常検知から得られた情報を利用しています。異常検知は、時間経過に伴う異常パターンを発見し、プロセスに依存した異常を検知します。

自動化されたインシデント管理は、問題を引き起こしているイベントパターンを特定することで、独自の分析機能を追加します。

  • 新たな異常を既存のインシデントと関連付けることで、アラームノイズを減らし、根本原因の分析を行います。
  • サービス品質やお客様の活動に影響を与えているか、与える可能性があるかに応じて、インシデントの優先順位を決定します。それを実現するには、リスク分析を適用し、リアルタイムで予測ロジックを起動できることが必要です。
  • 解決策を集約し、インシデント・パネルにアクティビティを表示します。識別されたリスクの性質に基づいて、ビジネスプロセス管理を介して修正のアクションを行ったり、エンジニアに修復の指示をだします。
  • 時間の経過とともにナレッジベースが追加され、既知の解決策や学習した回避策がメタデータとして蓄積されていきます。

例えば、マルチプルシステムオペレーターMSO)では、自動化されたインシデント管理により、ネットワーク・パケットの異常やネットワーク・スイッチの信号など、一見するとランダムなイベントを分析し、サービス・インシデントが特定されることがあります。インシデントの原因が、「ネットワークスイッチそのものではなく、アプリケーションの誤動作である。」ということが特定できるのです。

問題解決の迅速化

AIOpsを活用した自動化されたインシデント管理は、お客様の満足度を高め、ヘルプラインを使わずに済むことに加えて、以下のように変革するビジネスに長期的な利益をもたらします。

リソースの活用と運用パフォーマンスの向上 – 自動化された変更管理は、変革に直面してもコアテクノロジーの信頼性を維持できます。それは設備投資を最大限に活用するための最良の方法です。

地理的な制約の排除 – 変更管理の自動化は、地理的な場所に関係なく、問題を分析して解決するための共通言語を運用担当者に与えます。これは、組織が大きくなり、運用スタッフが現場や別のオフィスで働くようになると、より重要になります。

意思決定ツリーの上位に人財を配置する – インシデント管理の自動化は、低レベルの人件費を削減し、運用エンジニアのスキルを有効に活用します。エンジニアは「これはどのスイッチに接続されているのか」といった会話ではなく、「これによって影響を受ける可能性のある顧客は誰か」と尋ねることができるようになります。

組織の俊敏性を高める – CEOやその他の経営陣は、投資がの効果や、業務への貢献を知りたがっています。インシデント管理の自動化は、デジタルトランスフォーメーションの時代に重要なKPI、「ビジネスアジリティ」を向上させるのに役立ちます。

AIOpsがサービス運用の中心に

IT運用のサービス管理に組み込まれたAIOpsアプリケーションは、ITサービスを自己回復型の運用環境に大きく近づけます。

AIOpsは、プロアクティブなモニタリング、異常検知、根本原因の分析と発見、および自動化されたクローズドループの運用を実現します。

AIOpsは、サービスを提供するエコシステム全体の可視性を向上させ、問題を特定して修復します。さらに、同じ問題に取り組む複数の運用グループの作業重複を排除し、効果的な分析と自動化によって既存システムをよりスマートに、より価値あるものにします。

AIOpsの導入により、サービスに関わる様々な要素を相関させ分析できるようになりました。VitriaのAIOpsアプリケーションを活用したお客様は、以下のような成果を手にしています。

  • カスタマーサポートへの問い合わせ件数が、年間で18%減少しました。
  • 運用スタッフの補強が 25% 減少しました。
  • 監視や運用にかかるツールのライセンスコストが 22% 減少しました。
  • エンジニアが訪問して対応しなければならないケースが 12% 減少しました。

ITサービス運用に課題をお持ちの方は、ぜひ一度、VIA AIOpsをお試しください。