AIオペレーションズ - 百科事典

AIOps(人工知能のIT運用)とは、人工知能、機械学習、ビッグデータ分析を用いてデータセンター管理を自動化し、強化する方法を指します。これにより、組織は伝統的な方法よりも効率的に問題を検出、診断、解決することで複雑なIT環境を管理できます。

歴史
AIOpsは2016年にGartnerによって初めて定義されました。これにより、「人工知能」と「IT運用」を組み合わせて、AIと機械学習をIT運用に適用するアプリケーションを説明しました。このコンセプトは、IT環境の増大する複雑さとデータ量に対応するために提案され、イベント関連、異常検出、原因推定などのプロセスを自動化することを目指しました。

定義
AIOpsは、機械学習と分析を使用して、さまざまなDevOpsデバイスとツールから収集された大量のデータを分析し、リアルタイムで問題を自動的に特定し、対応する複数のレベルの複雑な技術プラットフォームを指します。AIOpsは、大データプラットフォーム内で孤立したITデータから集約された観察データ(例えば、ジョブログや監視システム)および相互作用データ(例えば、チケット、イベント、またはインシデント記録)への移行として使用され、これらのデータに機械学習と分析を適用します。結果として、継続的な可視性が得られ、自動化の実施と組み合わせることで、継続的な改善が可能になります。AIOpsは、自動化、サービス管理、パフォーマンス管理の3つのIT分野を結びつけ、継続的な可視性と改善を達成します。この新しいアプローチは、現代の加速化および超スケールのIT環境において、機械学習とビッグデータの進歩を活用して、以前の限界を克服します。

コンポーネント
AIOpsは以下のプロセスや技術を含む多くのコンポーネントで構成されています:

異常検出
ログ分析
原因分析
コHORT分析
イベント関連
予測分析
ハードウェア故障予測
自動修復
パフォーマンス予測
インシデント管理
原因推定
キュー管理
リソーススケジューリングと最適化
予測的容量管理
リソース割り当て
サービス品質監視
デプロイメントおよび統合テスト
システム設定
自動診断と問題特定
効率的なMLトレーニングと推論
クラウド運用向けLLMの使用
自動サービス修復
データセンター管理
顧客サポート
クラウド運用におけるセキュリティとプライバシー

結果
AIは以下の5つの方法でIT運用を最適化します:まず、AI駆動のインテリジェント監視により、障害が発生する前に潜在的な問題を特定し、平均検出時間(MTTD)を15-20%向上させます。次に、パフォーマンスデータの分析と洞察により、リアルタイムで大量のデータセットを取り込んで分析することで、迅速な意思決定が可能になります。第3に、AI駆動の自動インフラ最適化により、リソースを効率的に割り当て、クラウドコストを削減します。第4に、強化されたITサービス管理により、AI駆動のエンドツーエンドサービス管理を通じて、重要なインシデントを50%以上減少させます。最後に、インテリジェントなタスク自動化により、問題解決を加速し、最小限の人間の介入で修復行動を自動化します。2025年には、Atera NetworksがソフトウェアレビュープラットフォームG2によってAIOpsのリーダーとして認定されました。

AIOps対MLOps
AIOpsツールは、ビッグデータ分析、機械学習アルゴリズム、予測分析を使用して、異常を検出し、イベントを関連付け、積極的な洞察を提供します。この自動化により、ITチームの負担を軽減し、戦略的なタスクに集中できるようになります。AIOpsは、IT運用チーム、DevOps、ネットワーク管理者、ITサービス管理(ITSM)チームなど、ハイブリッドクラウド環境、データセンター、その他のITインフラストラクチャで広く使用されています。

一方、MLOps(マシンラーニング運用)は、マシンラーニングモデルのライフサイクル管理と運用面に焦点を当てています。AIOpsは、さまざまな分析とAI駆動の技術を使用してIT運用を最適化することに焦点を当てており、MLOpsはMLモデルのデプロイ、監視、メンテナンスに関心を持ちます。両方の分野はAIとデータ駆動の方法に依存していますが、AIOpsは主にIT運用に焦点を当て、MLOpsはMLモデルのデプロイ、監視、メンテナンスに焦点を当てています。

会議
AIOpsに特化したいくつかの会議があります:

AIOpsサミット
AI開発サミット
IBM Think会議

参考文献
(参考文献を含む場合はここに記載してください。)