Kommentar

Das Harness ist der billige Teil: Notizen zum Nachbau von Claude Code

Ein Kommentar zu Fareed Khans Nachbau von Claude Code von Grund auf — und warum man seine zentrale Schlussfolgerung umdrehen sollte.

Aleksandr Khomutov Originalautor: Fareed Khan 23. Mai 2026 ≈ 5 Min

Fareed Khan — ein Ingenieur, der für Level Up Coding schreibt — hat zwanzigtausend Wörter darüber verfasst, wie man Claude Code von Grund auf nachbaut: die Agentenschleife, den Tool-Dispatcher, dreischichtige Kontextkompression, Subagenten-Isolation, FSM-Protokolle zwischen Agenten, ein Git-Worktree pro Aufgabe. Sein Repository nannte er „23 Komponenten der Claude-Code-Architektur“.

Ich lebe jeden Tag in diesem Harness — ich schreibe Skills, Agenten, Hooks und Kontext-Routing dafür — und will das Wichtigste voranstellen: Der Artikel ist hervorragend als Karte des Mechanismus und gefährlich als Handlungsaufforderung. Denn die Schlussfolgerung, zu der er verleitet — „dann kann ich mein eigenes Claude Code bauen“ — ist genau das Gegenteil der richtigen.

Nachgebaut wird genau der Teil, der nichts kostet

Khan formuliert die These präzise: „Anthropic hat das richtige Harness um das richtige Modell gebaut“, und das Harness sei „vollständig reproduzierbar“. Die erste Hälfte stimmt. Die zweite stimmt nur in dem Sinne, in dem ein Skelett reproduzierbar ist: eine while True-Schleife, die das Modell aufruft, einen Tool-Call ausführt und das Ergebnis zurückspeist. Das sind vierzig Zeilen. Ich könnte sie an einem Abend schreiben, Sie könnten es, und der Autor hat es getan.

Aber Folgendes spricht Khan selbst aus und geht dann direkt daran vorbei: „eine schlecht geschriebene Beschreibung bringt das Modell dazu, das falsche Werkzeug zu wählen.“ Genau. Und der Artikel zeigt dann einzeilige Spielzeug-Beschreibungen. Der eigentliche Wert von Claude Code steckt nicht im Dispatcher — er steckt darin, dass die Beschreibungen seiner achtzehn Werkzeuge, der Text des Zusammenfassungs-Prompts bei der Kompression, die Formulierung der System-Reminder allesamt an Millionen realer Ausführungsspuren poliert sind. Zwanzigtausend Wörter rekonstruieren die 20 %, die leichtfallen, und übergehen die 80 %, die das Produkt sind: das Feintuning der Formulierungen im großen Maßstab. Das Skelett ist gerade deshalb gratis, weil der Wert nicht in ihm liegt.

Folklore-Namen

Durch den ganzen Artikel ziehen sich „interne“ Namen: die Hauptschleife nO, der Kompressor wU2, die Async-Queue h2A, eine Kompressionsschwelle von „etwa 92 %“. Das wird mit der Sicherheit einer Dokumentation präsentiert. Tatsächlich ist es Archäologie eines fremden minifizierten Bundles — Mnemoniken, die jemand aus obfusziertem Code gefischt hat. Als Mnemoniken sind sie harmlos. Als architektonische Referenzen sind sie ein Kategorienfehler: Sie zitieren eine Vermutung, keinen öffentlichen Vertrag. Ich würde keine einzige technische Entscheidung darauf gründen und rate dem Leser zur gleichen Distanz.

Wo der Autor recht hat, und zwar deutlich

Ein Muster erfasst der Artikel makellos — Progressive Disclosure, das Laden von Skills auf Abruf. „Installieren Sie hundert Skills, und der System-Prompt wächst um hundert Zeilen, nicht um hundert Seiten.“ Das ist tatsächlich die sauberste Komponente. Und es ist genau die Idee, die ich zu ihrem logischen Ende geführt habe: dreiachsiges Kontext-Routing, bei dem die Regeln für einen bestimmten Kunden, ein Team und eine Rolle nur dann laden, wenn Arbeitsverzeichnis und Git-Remote auf das richtige Profil passen. Progressive Disclosure ist kein Token-Spartrick; es ist die Art, das Modell fokussiert zu halten. Hier volle Punktzahl für den Autor.

Ebenso ehrlich beschrieben ist die Subagenten-Isolation: Der Elternagent sieht nur die finale Zusammenfassung, während Dutzende Zwischenlesungen im Kind bleiben und verworfen werden. Das ist keine Theorie — es ist der Grund, warum ich Suchen über eine große Codebasis durch separate Explore-Agenten laufen lasse statt im Hauptkontext. Der Mechanismus ist korrekt beschrieben.

Die Schlüsse aus dem Multi-Agenten-Teil aber sind verkehrt

Hier biegt der Artikel falsch ab. Der Höhepunkt des Multi-Agenten-Kapitels ist die autonome Selbstzuweisung von Aufgaben: „die autonome Selbstzuweisung beseitigt den Koordinator vollständig“, Agenten ziehen Aufgaben von einem geteilten Board und beanspruchen sie atomar über ein Lock. Präsentiert als eleganter Sieg. Aus meiner Erfahrung ist es genau die Schlussfolgerung, die in der Produktion bricht.

Ich habe Agententeams ernsthaft gebaut — einen Orchestrator plus einen Entwickler, einen Reviewer, einen Tester, einen Security-Ingenieur, mit parallelem Review und Tests. Und das Teure dort ist überhaupt nicht der Mechanismus des Aufgaben-Beanspruchens. Das Teure sind der Schleifen-Begrenzer (ich kappe hart bei fünf Iterationen, sonst geraten die Agenten in ein endloses Ping-Pong von Änderungen), die Konfliktlösung über den Lead (nicht autonom — ein Vermittler ist Pflicht, sonst überschreiben zwei Agenten still die Arbeit des anderen auf der Ebene der Bedeutung, nicht der Datei) und die Review-Müdigkeit (achtundvierzig Seiten Änderungen prüft niemand ehrlich). Ein Lock auf einer Datei rettet nicht vor einem Wettlauf auf der Ebene der Absicht. „Den Koordinator vollständig beseitigen“ klingt nach Skalierbarkeit, ist in der Praxis aber der Verzicht auf den einzigen Ort, an dem Merge-Entscheidungen fallen. Ich habe den Lead-Orchestrator bewusst behalten — und bereue es nicht.

Berechtigungen: Regex gegen Absicht

Dieselbe Blindheit zeigt sich im Governance-Kapitel. Das Modell des Artikels: eine YAML-Datei mit drei Listen (always_deny, always_allow, ask_user), und eine Regex über die Befehlszeichenkette entscheidet über das Schicksal eines Tool-Calls. Für rm -rf / taugt das. Aber der wirklich schwere Fall ist nicht der, den eine Regex fängt. Meine eigenen Anweisungen tragen ein eigenes Tor für Produktionsaktionen: kubectl exec gegen einen geteilten Prod-Pod, SSH auf einen Live-Host, terraform apply gegen Live-Infrastruktur — all das erfordert eine ausdrückliche, namentliche Freigabe innerhalb der aktuellen Sitzung. Keine Regex über eine Zeichenkette kann das ausdrücken, denn die Gefahr liegt hier nicht in der Syntax des Befehls, sondern in seiner Semantik: derselbe kubectl exec ist in einer Sandbox harmlos und gegen Shared Prod inakzeptabel. Der Artikel zeigt ein Berechtigungs-Skelett und nennt es eine „strukturelle Eigenschaft“. Ein Skelett — ja. Aber Sicherheit lebt auf der Ebene der Absicht, und dorthin reicht eine Regex nicht.

Phase 5: wo die Rekonstruktion am ehrlichsten ist

Bemerkenswerterweise ist der unstrittigste Teil des Artikels der letzte: parallele Tool-Ausführung über asyncio.gather, Interrupt-Injektion zum Steuern im Lauf, Prompt-Caching und eine Runtime für MCP. Hier muss Khan nichts hinzudichten — das sind messbare, beobachtbare Eigenschaften, und sie sind ehrlich beschrieben. Parallele Tool-Calls innerhalb eines Zuges und die Wiederverwendung des Cache-Präfixes sind Dinge, auf die ich mich täglich stütze. Eine Betonung würde ich nur verschieben: Prompt-Caching wird als Performance-Detail präsentiert, während es in der realen Arbeit ein tragender wirtschaftlicher Balken ist. Die Lebensdauer des Caches (in der Größenordnung von fünf Minuten) diktiert direkt den Rhythmus meiner langen Schleifen und aufgeschobenen Aufgaben — nicht „wie wird es schneller“, sondern „wann lohnt es sich überhaupt, aufzuwachen“. Die MCP-Runtime wiederum ist der eine Ort, an dem der Artikel echte Erweiterbarkeit berührt: Jeder externe Server wird zu einem neuen Eintrag in der Tool-Registry, und hier decken sich Rekonstruktion und Produktion exakt.

Was man damit anfängt

Lesen Sie den Artikel — als Karte ist er gut, und ehrliche Aufschlüsselungen der Mechanik von Claude Code sind selten. Bauen Sie dieses Harness an einem Wochenende; es lohnt sich: Sie hören auf, den Agenten für Magie zu halten, und sehen die nackte Schleife. Aber verlassen Sie die Übung nicht mit dem Gedanken „jetzt bin ich mein eigenes Anthropic“. Verlassen Sie sie mit dem Gegenteil: Wenn das Skelett so billig ist, dann liegt all Ihre Arbeit oberhalb des Skeletts. Werkzeugbeschreibungen, zugeschnitten auf Ihre Domäne. Eine Gedächtnisschicht, die Sitzungen übersteht, nicht als Spielzeug-.agent_memory.md, sondern im Ernst. Kontext-Routing für Ihre Teams und Kunden. Tore für Aktionen, die eine Regex nicht beschreiben kann. Anthropics Harness gibt Ihnen einen leeren, perfekt zusammengesetzten Rahmen. Der Wert liegt in den Muskeln, die Sie daran wachsen lassen — den Muskeln, die niemand, Anthropic eingeschlossen, an einem Abend reproduziert.

Nachgebaut wird genau der Teil, der nichts kostet

Folklore-Namen

Wo der Autor recht hat, und zwar deutlich

Die Schlüsse aus dem Multi-Agenten-Teil aber sind verkehrt

Berechtigungen: Regex gegen Absicht

Phase 5: wo die Rekonstruktion am ehrlichsten ist

Was man damit anfängt

Ähnliche Artikel

Die kurze Memory-Datei bricht im großen Maßstab zusammen: Token gegen Regel-Vorrang

Agenten-Sicherheit: Enterprise-Muster in einen Solo-Harness portiert

Tokens sparen in Agenten: Was der Überblick richtig macht und was überverkauft ist