Level 2· Lektion 7 von 7

Reasoning und Extended Thinking verstehen

Warum manche Modelle vor der Antwort laut nachdenken, wann das hilft und wann es nur Geld verbrennt. Mit dem konkreten Parameter den du in der API setzt.

In Lektion 1 hast du Chain of Thought gelernt. Du schreibst "denk Schritt für Schritt" in den Prompt und das Modell legt seine Zwischenschritte offen. Das war jahrelang ein Trick den du selbst auslösen musstest. Heute können viele Modelle das von sich aus, und zwar in einem eigenen Modus den du als Entwickler an- und ausschaltest. Der heißt Extended Thinking, oder bei manchen Anbietern einfach Reasoning. Mir fällt auf, dass viele Leute den Unterschied zwischen "ich bitte das Modell nachzudenken" und "ich schalte einen echten Reasoning-Modus ein" nicht kennen. Genau darum geht es hier.

Der Kern ist simpel. Ein normales Modell liest deinen Prompt und produziert sofort Token für Token die Antwort. Ein Modell mit Extended Thinking macht vorher eine Zwischenrunde. Es erzeugt erst einen Block an Gedanken, sortiert das Problem, verwirft Sackgassen, und schreibt dann die eigentliche Antwort. Diese Gedanken sind echte Tokens, sie kosten Geld, und du siehst sie je nach Modell zusammengefasst oder gar nicht. Der Effekt ist messbar bei allem was mehrere Schritte braucht: Mathe, Code-Debugging, logische Ketten, Pläne mit Abhängigkeiten.

Wann lohnt sich das. Faustregel aus der Praxis: wenn die Aufgabe eine richtige und viele falsche Antworten hat und der Weg dahin nicht offensichtlich ist. Ein Steuer-Edge-Case mit drei Bedingungen. Ein SQL-Query das über vier Tabellen joint. Ein Bug der nur unter einer bestimmten Race-Condition auftritt. Da bringt Reasoning echte Genauigkeit. Wann es sich nicht lohnt: Textzusammenfassungen, Umformulierungen, einfache Klassifikation, Tonalitaets-Anpassung. Da denkt das Modell über etwas nach das gar keine harte Lösung hat, und du zahlst für Tokens die nichts verbessern.

Der Parameter den du wirklich setzt

Bei der Anthropic Messages API steuerst du das über ein Feld namens thinking. Bei älteren Modellen wie Sonnet 4.5 oder Opus 4.5 sieht das so aus:

{
  "model": "claude-sonnet-4-5",
  "max_tokens": 4096,
  "thinking": {
    "type": "enabled",
    "budget_tokens": 8000
  },
  "messages": [
    { "role": "user", "content": "Loese dieses Logik-Puzzle..." }
  ]
}

Das budget_tokens ist die Obergrenze für den Denk-Block. Interessanter Punkt: dieser Wert darf größer sein als max_tokens, denn das Denken und die Antwort sind getrennte Budgets. 8000 Tokens nachdenken und dann 4096 Tokens antworten ist ein völlig legitimes Setup.

Bei den neuen Modellen hat sich das geändert, und das ist die Stelle an der die meisten alten Tutorials falsch liegen. Opus 4.6 und Sonnet 4.6 nutzen kein budget_tokens mehr. Dort ist thinking.type: "enabled" mit fixem Budget deprecated. Stattdessen setzt du thinking.type: "adaptive" und steuerst die Tiefe über einen effort-Parameter. Das Modell entscheidet dann selbst wie lange es nachdenkt, je nach Schwierigkeit der Aufgabe. Bei Opus 4.7 und Opus 4.8 ist das sogar der einzige Weg, manuelles budget_tokens wird dort nicht mehr akzeptiert.

{
  "model": "claude-opus-4-8",
  "max_tokens": 4096,
  "thinking": { "type": "adaptive" },
  "messages": [
    { "role": "user", "content": "Plane eine Migration..." }
  ]
}

Warum dieser Wechsel. Ein fixes Token-Budget ist immer ein Kompromiss. Setzt du es zu niedrig, denkt das Modell bei harten Aufgaben zu kurz. Setzt du es zu hoch, verbrennst du bei einfachen Aufgaben Geld. Adaptive Thinking löst das, indem das Modell die Tiefe an die Aufgabe koppelt. Du gibst nur noch grob die Richtung vor, über effort. Mehr Effort bedeutet das Modell darf länger nachdenken wenn es das für nötig hält.

Interleaved Thinking, wenn Tools im Spiel sind

Es gibt einen Spezialfall der wichtig wird sobald dein Modell Tools aufruft. Normalerweise denkt das Modell einmal am Anfang und antwortet dann. Bei Interleaved Thinking darf es zwischen einzelnen Tool-Calls erneut nachdenken. Es ruft ein Tool auf, sieht das Ergebnis, denkt darüber nach, ruft das nächste Tool auf. Das ist genau das Verhalten das du für einen Agent willst der mehrere Schritte plant.

Aktiviert wird das über einen Beta-Header:

anthropic-beta: interleaved-thinking-2025-05-14

Hier wird auch klar warum budget_tokens größer sein darf als max_tokens. Bei Interleaved Thinking ist das Budget die Summe über alle Denk-Blöcke in einem einzigen Assistant-Turn, nicht pro Block. Wenn dein Agent fünf Tools nacheinander aufruft und vor jedem kurz nachdenkt, addiert sich das.

Ein Detail das oft zu Verwirrung führt: der Header anthropic-version: 2023-06-01 ist auch im Jahr 2026 noch korrekt. Das ist die Version der API, kein Datum das mit dem Modell zu tun hat. Lass dich davon nicht irritieren, du setzt den genau so, auch bei Opus 4.8.

Was du im Alltag damit machst

Drei konkrete Muster die ich immer wieder sehe.

Erstens, Reasoning gezielt nur für harte Pfade. In einer App die viele verschiedene Anfragen verarbeitet, schaltest du Extended Thinking nicht global an. Du klassifizierst erst die Anfrage mit einem billigen Aufruf ohne Thinking, und nur wenn die Aufgabe als "komplex" eingestuft wird, schickst du sie an ein Modell mit aktiviertem Reasoning. Das spart oft mehr als die Hälfte der Kosten.

Zweitens, Effort an die Nutzerklasse koppeln. Wenn ein Free-User eine Frage stellt, niedriger Effort. Wenn ein zahlender User dieselbe Frage stellt, höher. Die Qualität skaliert mit dem was du dir leisten kannst pro Anfrage.

Drittens, die Gedanken loggen aber nicht ausliefern. Der Denk-Block ist Gold für Debugging. Wenn das Modell eine falsche Antwort gibt, siehst du im Reasoning oft genau wo es abgebogen ist. Du speicherst das in deinen Logs, zeigst es dem Endnutzer aber nicht. Der will die Antwort, nicht den Monolog.

Ein letzter ehrlicher Hinweis. Extended Thinking ist kein Zaubermittel. Es macht ein Modell genauer bei Aufgaben mit klarer Lösung, aber es macht ein Modell nicht kreativer und nicht ehrlicher. Wenn das Modell etwas nicht weiß, denkt es mit Reasoning genauso selbstbewusst an der falschen Antwort vorbei, nur ausführlicher. Halluzinationen aus Lektion 2 von Level 1 verschwinden dadurch nicht. Sie werden manchmal sogar besser begründet präsentiert. Reasoning ist ein Werkzeug für Genauigkeit, kein Ersatz für das Prüfen der Antwort.

Was als nächstes

Du verstehst jetzt den Unterschied zwischen einem Chain-of-Thought-Prompt und einem echten Reasoning-Modus, und du kennst den Parameter den du dafür in der API setzt. In der nächsten Lektion geht es um System-Prompts und wie du das Verhalten eines Modells über die einzelne Anfrage hinaus steuerst. Wenn du tiefer in die aktuellen Modelle willst, schau dir in Level 1 die Lektion zur Modell-Landschaft 2026 an, dort steht welches Modell welchen Thinking-Modus unterstützt.

Source

Extended Thinking Doku: https://platform.claude.com/docs/en/build-with-claude/extended-thinking
Effort-Parameter: https://platform.claude.com/docs/en/build-with-claude/effort
Migration Guide neue Modelle: https://platform.claude.com/docs/en/about-claude/models/migration-guide

Du liest ohne Account. Login speichert Deinen Fortschritt, damit Du beim nächsten Mal direkt weitermachen kannst. Einloggen →

← Capstone. Ein echtes System au Zum Checkpoint →