SRE & Observability

Engineering-Notizen und Analysen zum Thema „SRE & Observability“ — mit praktischen Beispielen und Erkenntnissen aus der Praxis.

Notiz 13.06.2026 ≈ 4 Min

Ein zweimal geschlossener Incident: Severity, ICS, drei Gates

Warum «recovered» das teuerste Wort in einem Incident ist — und die drei Prüfungen, die davor bestehen müssen.
Lesen
Notiz 06.06.2026 ≈ 3 Min

Vier goldene Signale: was sie wirklich erfassen und warum der Stack VictoriaMetrics + Loki heißt

Was jedes der vier Signale tatsächlich erfasst und drei Fallen, bei denen „wir haben Monitoring“ zu grünen Häkchen über einem kaputten Service wird.
Lesen
Notiz 25.05.2026 ≈ 4 Min

Error Budget als Stopp-Knopf: SLOs ohne Panik

Das Error Budget verwandelt Zuverlässigkeit in eine Ressource, die man ausgeben kann — und Multi-Burn-Rate-Alerts in einen Page, der das Wecken wirklich wert ist.
Lesen