インシデント管理を簡素化するには

インフラ、ネットワークなどのプラットフォームの仮想化技術が発達し、あらゆる企業が驚くような速さでサービスをローンチできるようになりました。その一方で、相互に接続されたアプリケーションで構成されたシステムは、言うまでもなく複雑で、その障害管理が常に運用者の課題となっています。

障害管理の課題

仮想インフラストラクチャと物理インフラストラクチャ、内部ネットワークとパブリックネットワーク、複数のアプリケーションで構成されるシステムは、言うまでもなく複雑です。その障害管理においては、常に運用者の課題となっています。従来型の、そして技術的に取り残された企業が行っている、レガシーな障害管理は、ネットワーク、リソース、アプリケーション、のように技術的な要素で分断され、それぞれのレイヤーごとにサイロ化された監視を行っています。そして、サイロ化された各監視システムからは、日々、大量のアラームが通知されます。大量のアラームを受けたサービス信頼性エンジニア(SRE)はそれぞれのアラームを確認、分類し、障害チケットを作成する必要があるかどうかを判断します。

システム間で相互に影響のある問題が生じた場合は、サイロ化された各監視システムからは、同時に複数のチケットが起票され、別々のチームが根本原因の解明に参加し、無駄な調査に時間とリソースを浪費します。データベースの障害が根本原因であるにも関わらず、インフラチーム、ネットワークチーム、アプリケーションチームが全員揃って原因分析をするようなことをしているわけです。

この遅くて労働集約的なレガシー型の監視のアプローチはもはや効果的ではありません。時間と費用がかかりすぎるのはもちろんのこと、お客様のフラストレーションも高まります。

コロナ禍において、突然サービスのスケールアップ、スケールアウトを求められることが、珍しくなくなりました。従来の数倍の処理能力を求められ、システム的にその要求に追従できたとしても、従来型の運用・監視のアプローチを続けているのであれば、それがボトルネックとなります。

現代のシステム運用において、効果的な障害管理を行うには、「サービスレイヤー全体のアラートノイズの低減」、「人間の介入を減らす自動化」、「既存の監視プロセスと障害管理システムとの統合」が必要です。

 

サービスの運用を改善するために、AIOpsを導入した組織の成果

AIOpsの導入により、サービスに関わる様々な要素を相関させ分析できるようになりました。

  • カスタマーサポートへの問い合わせ件数が、年間で18%減少しました。
  • 運用スタッフの補強が 25% 減少しました。
  • 監視や運用にかかるツールのライセンスコストが 22% 減少しました。
  • エンジニアが訪問して対応しなければならないケースが 12% 減少しました。

なぜ いま AIOps なのか?

これまでもビジネスデータやアプリケーションのログ、マシンログをモニタリングして、例外データや異常を検知するような取り組みは行われてきました。

しかし、増え続けるデータや複雑化を続けるシステムに対して、特定の情報だけを監視していても、検知できる問題には限度があるということはわかりきった事実です。

大量に検知されるアラート、増え続けるノイズ、増え続ける運用コスト、溜まり続ける従業員のストレス。そのような状況を改善するのがAIOpsの役目です。

AIの力を活用し、大量のデータから重要情報を取り出します。人間では気づけないような変化をとらえ、トラブルを未然に防ぐことができます。近年ではAIOpsの成熟度もあがり AIに適切なタスクを自動実行させトラブルを収束させることもできるようになってきました。

増え続けるデータ、複雑化を続けるシステムに比例して運用の負担・ストレスが増えていく。そのような運用方式ではいずれ破綻してしまうことは誰もがわかっています。いま AIOps に取り組まなければ 数年後には IT運用は更に大きな負担となっていることでしょう。AIOpsは、「デジタルトの重要性が一般に認められてきた」ことと「IT環境の複雑化・高度化」という 2つの要因によっていままさに推進されている取り組みです。