アラートを集約し Dev (開発) と Ops (運用) の連携改善に役立てる方法

本稿は、BigPanda 社シニア マーケティング マネージャー、Tiffany Cantle 氏によるゲスト投稿です。

物事の動きが早まるほど、壊れるのも早くなります。競争力を維持するにはスピードが不可欠です。しかし、物事の動きが早まるほど、壊れるのも早くなります。

多くの企業がアプリのリリースとインフラ管理の自動化へ向けて大躍進を遂げていますが、サービス保証の自動化はひどく立ち遅れています。その結果、開発部門と運用部門には飛躍的に増加した大量のアラートをどのように効率良く提供するか、という問題が発生しています。

自動化で発生した問題に手動で対処?

例を挙げて説明していきましょう。35 台のホストを持つ MySQL クラスターがあるとします。ホストの中にはページ フォールト率が高いものや、空きメモリーが少ないものがあります。そのような特定のホストのチェックを実行することで、システム監視ツールが問題を検出し、NOC (ネットワークオペレーションセンター) や対応するサービスチームへ多種多様なアラートが送信されることになります。

アラートが作成されたら修復のための次のステップは当然、JIRA Service Desk チケットの作成です。では、実際どのように作成するのでしょうか?

チケット作成方法には主に 2 種類あり、多くの企業がこの 2 つの方法で作成していますが、両方法共に問題があります。

第 1 は、NOC または IT エンジニアが問題を突き止め、手動でチケット作成する方法です。この方法には以下の作業が含まれます:

  • すべてのアクティブ アラートを手動でフィルタリングし、どのアラートが同じ課題の症状を示しているのか判断する
  • 初期調査を実施して課題の深刻さを明確にし、その課題がサービスデスクで修復可能か否か、またはさらなるサポートが必要か否かを判断する
  • 手動でチケットを作成し、そのチケットに関連するアラート情報を追加する

このように、一連の自動化作業が手動作業の障害物に直面します。毎日、数百 (数千) 件のチケットに対してこの作業を行うことを想像してみてください!

アラート集約による対処方法

チケットの手動作成の代替策は、ご使用の監視ツールによるサービスデスクチケットの自動作成です。しかし、現在の監視ツールの多くはノイズが非常に大きいことを考えると、アラートに基づいた自動チケット作成は、アラートのノイズ問題をチケット作成のノイズ問題へと拡大することになります。

アラートに基づいた自動チケット作成は、単にアラートのノイズ問題がチケット作成のノイズ問題に置き換わるだけです。


自動化を実現する鍵は、そもそも障害物を作り出す根本的問題、すなわち、アラートのノイズ問題に取り組むことです。チケット作成プラットフォームに数千件の未処理の RAW アラートを送りたいと思っている人はいません。しかし、運用チームが大量アラートを鎮圧し、大量の運用データから有意義なインシデントのみを明らかにできるのであれば、話は違ってきます。

アラートを関連付けて集約しましょう。アラート関連付けのゴールは、関連性の高いアラートを自動的に識別し、単一の統合インシデントにグループ化することです。次の 3 種類の主要パラメータに従ってアラートをグループ分けすることで機能します:

  • トポロジー – アラートを発するホスト、ホストグループ、サービス、アプリケーション、クラウド、等
  • 時間 – アラート クラスターの形成レート
  • コンテキスト – アラートのチェックタイプ

先に挙げた例でアラート関連付けを適用した場合、運用チームには特定の MySQL クラスターに対するメモリとページ フォールトのアラートすべてをグループ化した単一インシデントが提示されます。そのインシデントに属するアラートとその他の同様のアラートを運用チームは簡単に区別できます。開発チームに知らせるべきか、それとも、開発チームにコーディングを続けさせるべきかすぐに分かります。

障壁を取り除き、真の自動化へ

最新の IT スタックは約 6 〜 8 のツールから構成されているので、手動でのアラート関連付けルール作成は割高になります。さらに、サーバー再設定や、アプリの名前変更やデプロイメントなど変更が発生するたびに、チームが大変な努力をして作成した関連付けルールは即座に無効になります。

幸運にも、JIRA Service Desk チームは、BigPanda などのアラート関連付けツールを活用してこのプロセスを自動化できます。アラート関連付けは未処理の RAW アラートと統合インシデントの間で 95% 以上の圧縮を実現します。BigPanda などのツールが持つ自動共有機能により、運用チームは完全自動化プロセスで IT 監視、アラート関連付け、チケット作成が可能です。

関連付けツールは、組織内で使用されている様々な監視ツールのすべてからアラートを取り出し、強力な関連付けアルゴリズムを自動適用して複数のアラートを単一の統合インシデントにします。インシデントが作成されたら、チームは共有ルールを実装して自動的に JIRA Service Desk チケットを作成することができます。

Alert Correlation

運用チームは大量のチケットに対応する必要はなく、1 つのチケットだけを受け取ります。そのチケットは:

  • 統合インシデントに基づいて自動的に作成
  • 監視中のイベントの変化に応じて自動的に更新
  • 測定基準、CI、ランブック リンクなどの関連情報で自動的に拡充

ノイズに埋もれたチケットではなく、運用データで拡充された役立つ統合チケットの送信により、開発者は余計な調査の必要なくすぐにインシデントに対処することができます。チケットは履歴情報とリアルタイム監視情報すべてを含み、管理ツールを変更するためにリンクすることも可能なので、開発者は課題をたどって簡単に最新のコードデプロイメントへたどりつくことができます。

BigPandaIncidents

JIRA Service Desk の性能とアラート関連付けを結び付けることは、IT 監視とサービス保証を自動化するだけでなく、開発と運用の健全なコラボレーションを育成することにもなります。運用チーム、開発チーム、そして (もっとも重要な) あなたのカスタマーに Win-Win です。

 


さらなる DevOps 情報をご希望ですか? アトラシアンがツールスタックを使って DevOps を行う方法を学んでください。アトラシアンがどのように製品やインフラを築き上げ、インシデントに対処しているのか、次回の Web セミナーでお話しします:

今すぐ登録

本稿執筆者の紹介

Tiffany Cantle 氏は BigPanda 社シニア マーケティング マネージャーです。彼女はインテリジェント アラート関連付けを使用した DevOps チームと IT 運用チームのノイズ削減とパフォーマンス向上の支援に熱心に取り組んでいます。仕事以外では、ランニングや旅行、美味しいコーヒーを探し出すことが大好きです。チケット発行をご利用の監視スタックと同期し続けることで BigPanda が JIRA Service Desk を拡充する方法について詳細をご覧になるか、無料デモをリクエストしてください。