SRE & Observability
Engineering-Notizen und Analysen zum Thema „SRE & Observability“ — mit praktischen Beispielen und Erkenntnissen aus der Praxis.
-
Ein zweimal geschlossener Incident: Severity, ICS, drei Gates
Warum «recovered» das teuerste Wort in einem Incident ist — und die drei Prüfungen, die davor bestehen müssen.
Lesen -
Vier goldene Signale: was sie wirklich erfassen und warum der Stack VictoriaMetrics + Loki heißt
Was jedes der vier Signale tatsächlich erfasst und drei Fallen, bei denen „wir haben Monitoring“ zu grünen Häkchen über einem kaputten Service wird.
Lesen -
Error Budget als Stopp-Knopf: SLOs ohne Panik
Das Error Budget verwandelt Zuverlässigkeit in eine Ressource, die man ausgeben kann — und Multi-Burn-Rate-Alerts in einen Page, der das Wecken wirklich wert ist.
Lesen