SRE y observabilidad

Notas de ingeniería y análisis sobre SRE y observabilidad, con ejemplos prácticos y lecciones de la experiencia.

Nota 13.06.2026 ≈ 4 min

Un incidente cerrado dos veces: severity, ICS y tres gates

Por qué «recovered» es la palabra más cara de un incidente y las tres comprobaciones que deben pasar antes.
Leer
Nota 06.06.2026 ≈ 4 min

Cuatro señales doradas: qué capturan de verdad y por qué el stack es VictoriaMetrics + Loki

Qué captura cada una de las cuatro señales y tres trampas donde «tenemos monitoring» acaba siendo marcas verdes sobre un servicio roto.
Leer
Nota 25.05.2026 ≈ 4 min

Error budget como botón de parada: SLO sin pánico

El error budget convierte la fiabilidad en un recurso que puedes gastar — y las alertas multi-burn-rate en un aviso que de verdad merece despertarte.
Leer