SRE
えすあーるいー
SRE
一言でいうと
ソフトウェアエンジニアリングのアプローチで運用問題を解く、Googleが提唱した役割・職種のこと。
詳しい意味
SRE(Site Reliability Engineering / Engineer)は、Google が提唱した「運用の問題をソフトウェアエンジニアリングのアプローチで解く」役割・職種・実践です。SLO / エラーバジェット・自動化・ポストモーテム・監視・キャパシティプランニング・本番障害対応などを担当。インフラエンジニアと違い、運用業務の自動化に重点を置く(人手で繰り返す作業をコードで撲滅する)のが特徴。「DevOps を実装する具体的な役割が SRE」と整理されることが多く、開発チームと運用チームの間に立って信頼性と開発速度のバランスを取る存在として機能します。
何に使うか
サービスが大規模化し、運用業務が増えてきたとき。SLO / エラーバジェット文化を社内に導入したいとき。本番障害対応のプロセス整備。
どんな時に出るか
「SRE採用」「SREチームに相談」「SRE観点でレビュー」といった場面で登場します。
具体例
- SRE チームが SLO とエラーバジェット運用を設計し、信頼性と開発速度のバランス指標を作った。
- SRE は「toil(同じ作業の繰り返し)」を減らすために、運用作業をコードで自動化する。
別名・略称
sre(えすあーるいー)Site Reliability Engineer(さいとりらいあびりてぃえんじにあ)Site Reliability Engineering(さいとりらいあびりてぃえんじにありんぐ)
間違えやすい語
初心者向けメモ
「メカニック兼ピットクルー」のような役割です。レーシングチームでドライバー(エンジニア)が走りに集中できるよう、車(システム)の整備・性能改善・故障対応を専門に行う。違いは、メカニックが「同じ整備を毎回手作業」なのに対し、SRE は「整備自体をコードで自動化する」発想で動くこと。