Notiz

FinOps ist Rationalität, kein Kostensenken

Cloud-Mehrausgaben sind keine Nachlässigkeit, sondern die Summe lokal rationaler Entscheidungen. Ändern Sie die Informationsumgebung, nicht die Menschen.

Aleksandr Khomutov 24. Mai 2026 ≈ 4 Min

Wenn die Cloud-Rechnung steigt, ist der erste Reflex, einen Schuldigen zu suchen. „Wer hat diese m5.4xlarge bestellt?“, „warum hat dieser Dienst 8 GB Arbeitsspeicher für eine Last von 200 MB?“ Ein bequemes Modell — und ein falsches. Cloud-Mehrausgaben sind fast nie die Folge von Nachlässigkeit. Sie sind die zwangsläufige Summe vieler lokal rationaler Entscheidungen, die in der Summe ein kollektiv irrationales Ergebnis ergeben. Und solange FinOps versucht, das mit Moralpredigten zu kurieren, ändert sich nichts.

Defensive Überprovisionierung: jeder hat für sich recht

Nehmen wir ein typisches Szenario. Ein Dienst starb einmal um drei Uhr nachts an OOM. Der Bereitschaftsingenieur verdoppelte den Memory-Request — und hatte recht: niemand will derjenige sein, dessen Name unter dem Incident steht. Ein anderes Mal schoss die Latenz während einer Werbekampagne hoch, also wurde die CPU „mit Reserve auf ganzer Linie“ angehoben. Ebenfalls vernünftig: ein Spike kostet mehr als Hardware.

Jede dieser Entscheidungen für sich genommen ist vorsichtig und gerechtfertigt. Summiert man aber N solcher Entscheidungen über Hunderte von Diensten über ein paar Jahre, ergibt sich das Bild, das jedes Audit zeigt: 70–80 % der bereitgestellten Kapazität liegen brach. Niemand hat dumm gehandelt. Dumm war das System, das Übervorsicht belohnte und ihren Preis nie sichtbar machte.

Daraus folgt die Erkenntnis, die die gesamte Praxis verändert: einen Ingenieur für Überprovisionierung zu beschuldigen ist sinnlos. Das ist kein individuelles, sondern ein systemisches Problem — und es muss systemisch gelöst werden:

Sichtbarkeit am Punkt der Entscheidung. Eine Kostenannotation direkt im PR: „diese Änderung fügt 40 $/Monat hinzu.“ Kein Bericht zwei Monate später, wenn der Kontext vergessen ist, sondern eine Zahl in dem Moment, in dem der Ingenieur die Änderung noch im Kopf hat.
Sinnvolle Defaults auf dem Paved Path. HPA-Target 70 %, Requests nach P95/P99 statt nach dem Spitzen-Spike. Die meisten Menschen übernehmen den Default — also machen Sie den Default richtig.
VPA im Advisory-Modus. „Angefordert 1 GB, beobachtetes P99 — 200 MB.“ Kein automatisches Kürzen, sondern Information: die Entscheidung bleibt beim Ingenieur, nur ist sie jetzt eine informierte.
Kollektive Verantwortung statt persönlicher. Eine Mechanik im Stil des Error Budgets: ein Team überschreitet sein vierteljährliches Kostenziel — also wird im nächsten Sprint ein Rightsizing eingeplant. Die Verantwortung liegt beim Team, nicht beim Sündenbock.

Showback vor Chargeback

Aus derselben Logik erwächst eine Reihenfolge-Regel. Chargeback — die tatsächliche Belastung der Ausgaben auf das Teambudget — sieht nach dem „ehrlichen“ Mechanismus aus. Unvorbereitet ausgerollt erzeugt er aber Billing-Friction: Menschen fangen an, mit den Zahlen zu streiten, Ressourcen unter fremden Tags zu verstecken, FinOps als Finanzamt zu betrachten.

Showback — „so viel hat euer Team ausgegeben“, ohne Belastung — bringt fast immer eine spürbare Kostensenkung von ganz allein. Sichtbarkeit wirkt ohne Zwang: zeigen Sie einem Ingenieur die Kosten seines Dienstes, und er beginnt selbst zu optimieren, weil Berufsstolz stärker ist als die Angst vor dem Budget. Erst zeigen, dann — wenn die Reife so weit ist — abrechnen. Chargeback ohne vorherigen Showback ist ein Schmerz, für den niemand unterschrieben hat.

Das LLM als neue Position der variablen Kosten

2026 hat diese Logik eine neue Dimension bekommen. KI-Agenten im DevOps — Triage, Slack-Bots, agentische Workflows — haben LLM-API-Aufrufe zu einer sichtbaren Zeile auf der Cloud-Rechnung gemacht. Und hier ist dieselbe Falle der lokalen Rationalität, nur umgekehrt: teuer nicht, weil man sich überversichert hat, sondern weil das Werkzeug ohne Rücksicht auf die Aufgabe gewählt wurde.

Ein Reasoning-Modell zu 75 $ pro Million Output-Tokens, abgefeuert auf ein routinemäßiges kubectl get pods, ist „ein Principal Engineer, den man zum Glühbirnenwechseln gerufen hat“. Einzeln — „es ist ja klüger“. In der Summe — eine Rechnung, die niemand eingeplant hat. Die Disziplin ist dieselbe wie bei der Infrastruktur:

Modell-Routing je Aufgabe. Häufige, sich wiederholende Operationen auf günstige/kostenlose Modelle; Reasoning nur für seltene, tiefe Analysen.
Mismatch-Erkennung — ein teures Modell auf einer billigen Aufgabe ist ein guter Indikator für versteckte Ausgaben.
Kosten-Tags auf API-Schlüsseln. Behandeln Sie einen Schlüssel wie eine EC2-Instanz: Team / Service / Cost-Center sind Pflicht. Sonst weiß in einem halben Jahr niemand mehr, wessen Agent das Budget verbrannt hat.

Ein realer Fall: vier Monitoring-Crons, die Hunderte Aufrufe pro Tag auf einem teuren Reasoning-Modell trieben, brachten −80–85 % der LLM-Kosten, nachdem die Routine auf einen Free Tier verlegt wurde. Die Architektur änderte sich nicht — geändert hat sich die Passung zwischen Werkzeug und Aufgabe.

Was daraus folgt

FinOps ist kein „Kostensenkungs-Team“, gegen das sich Ingenieure zu wehren beginnen. Es ist eine Ingenieursdisziplin, die anerkennt: Menschen in der Cloud handeln rational im Rahmen der Informationen, die sie haben. Wollen Sie ein anderes Ergebnis — ändern Sie nicht die Menschen, sondern ihre Informationsumgebung. Sichtbarkeit im richtigen Moment, korrekte Defaults, Feedback auf Teamebene. Kosten werden Teil der Ingenieursentscheidung — und keine Überraschung am Monatsende.