GLOSSA

オンコール

おんこーる

On-Call

一言でいうと

障害発生時に即対応できるよう、当番制で担当者を配置する体制のこと。

詳しい意味

オンコールは、本番障害が発生したときに即時対応できるよう、エンジニアを当番制で配置する運用体制です。担当者は勤務時間外でも電話・SMS・PagerDutyなどで呼び出される代わりに、手当てや代休が用意されるのが一般的。1次受け(即時対応)と2次受け(1次がエスカレーションする先)のように層を分けることもあります。良いオンコール運用のためには、(1) 監視・アラートの精度(誤発報を減らす)、(2) Runbook(手順書)の整備、(3) ローテーションの公平性、(4) ポストモーテム文化、が必要です。「夜中に起こされる頻度」を減らすことが運用品質の指標になります。

何に使うか

24時間365日稼働するサービスの本番障害対応。SaaSのSLAを担保したいとき。重大障害の初動を速くしたいとき。

どんな時に出るか

「今週オンコール当番」「オンコールがめっちゃ呼ばれた」「PagerDutyでオンコール管理」といった場面で登場します。

具体例

  • オンコールローテーションを5人で回しているので、1人あたり週に1回当番。
  • アラートの精度を上げて、オンコールが夜中に呼ばれる頻度を半分に減らした。

別名・略称

on-call(おんこーる)oncall(おんこーる)PagerDuty(ぺいじゃーでゅーてぃー)

関連語

アラート監視

初心者向けメモ

病院の「夜間当直医」と同じです。普段は休みでも、救急が来たら呼ばれる。当直の頻度が多すぎると消耗するので、人数を増やす・当直手当を出す・問題そのものを減らすといった運用設計が必要です。

この説明に改善点はありますか?

この説明を修正提案する新しい用語を提案する

提案は管理者が確認した後に反映されます