アラート
あらーと
Alert
一言でいうと
監視で異常を検知した時に、担当者に即座に知らせる通知のこと。
詳しい意味
アラートは、監視で設定した条件(エラー率5%超え、レスポンスタイム1秒超えなど)が発生した時に、担当者に即座に通知する仕組みです。Slack、メール、PagerDuty、電話呼び出しなど、緊急度に応じてチャネルを使い分けます。アラートが鳴り過ぎる(アラート疲れ)と本当に重要な通知が見逃されるので、「対処すべき条件だけ通知する」「重複は集約する」設計が重要です。アラートの後には「オンコール対応」「ポストモーテム」など運用プロセスが続き、再発防止までを含めて1セットになります。
何に使うか
本番障害を即座に通知したいとき。SLO違反のリスクを早期検知したいとき。コスト急増などビジネス影響のある異常を担当者に届けたいとき。
どんな時に出るか
「アラートが鳴った」「アラート疲れを減らしたい」「アラートをSlackから PagerDuty に集約」といった場面で登場します。
具体例
- P95レイテンシー300ms超でSlackにアラート、5分続いたらPagerDutyに昇格する設定。
- ノイズの多いアラートを集約・抑制して、対処率を3倍に上げた。
別名・略称
alert(あらーと)アラーティング(あらーてぃんぐ)通知(つうち)
関連語
初心者向けメモ
火災報知器と同じです。煙感知(監視)→ ベル発報(アラート)→ 駆けつけ(オンコール対応)の流れ。誤報が多いと住人がベルを無視するようになる現象(アラート疲れ)も、本物の火災と同じです。