SRE y observabilidad
Notas de ingeniería y análisis sobre SRE y observabilidad, con ejemplos prácticos y lecciones de la experiencia.
-
Un incidente cerrado dos veces: severity, ICS y tres gates
Por qué «recovered» es la palabra más cara de un incidente y las tres comprobaciones que deben pasar antes.
Leer -
Cuatro señales doradas: qué capturan de verdad y por qué el stack es VictoriaMetrics + Loki
Qué captura cada una de las cuatro señales y tres trampas donde «tenemos monitoring» acaba siendo marcas verdes sobre un servicio roto.
Leer -
Error budget como botón de parada: SLO sin pánico
El error budget convierte la fiabilidad en un recurso que puedes gastar — y las alertas multi-burn-rate en un aviso que de verdad merece despertarte.
Leer