オンコール
おんこーる
On-Call
一言でいうと
障害発生時に即対応できるよう、当番制で担当者を配置する体制のこと。
詳しい意味
オンコールは、本番障害が発生したときに即時対応できるよう、エンジニアを当番制で配置する運用体制です。担当者は勤務時間外でも電話・SMS・PagerDutyなどで呼び出される代わりに、手当てや代休が用意されるのが一般的。1次受け(即時対応)と2次受け(1次がエスカレーションする先)のように層を分けることもあります。良いオンコール運用のためには、(1) 監視・アラートの精度(誤発報を減らす)、(2) Runbook(手順書)の整備、(3) ローテーションの公平性、(4) ポストモーテム文化、が必要です。「夜中に起こされる頻度」を減らすことが運用品質の指標になります。
何に使うか
24時間365日稼働するサービスの本番障害対応。SaaSのSLAを担保したいとき。重大障害の初動を速くしたいとき。
どんな時に出るか
「今週オンコール当番」「オンコールがめっちゃ呼ばれた」「PagerDutyでオンコール管理」といった場面で登場します。
具体例
- オンコールローテーションを5人で回しているので、1人あたり週に1回当番。
- アラートの精度を上げて、オンコールが夜中に呼ばれる頻度を半分に減らした。
別名・略称
on-call(おんこーる)oncall(おんこーる)PagerDuty(ぺいじゃーでゅーてぃー)
初心者向けメモ
病院の「夜間当直医」と同じです。普段は休みでも、救急が来たら呼ばれる。当直の頻度が多すぎると消耗するので、人数を増やす・当直手当を出す・問題そのものを減らすといった運用設計が必要です。