Playbook· setup

Mythos teure Modellklasse: Wann sich das teuerste KI-Modell wirklich lohnt

Ehrliche Entscheidungshilfe, wann du die Top-Klasse brauchst und wann die günstigere reicht. Mit konkreten Beispielen aus Coding, Texten, Agenten und Routine-Tasks.

Es gibt diesen Reflex, immer das teuerste Modell zu nehmen, weil teuer ja besser sein muss. Und manchmal stimmt das auch. Aber meistens zahlst du den Aufpreis für Reasoning-Tiefe, die deine Aufgabe gar nicht abruft. Du lässt ein Modell, das einen komplizierten Architektur-Refactor durchdenken könnte, eine E-Mail umformulieren. Das ist als würdest du einen Sportwagen kaufen, um damit Brötchen zu holen, und dich dann wundern, dass der Sprit teuer ist.

Dieses Playbook ist die ehrliche Entscheidungshilfe, die ich mir am Anfang gewünscht hätte. Keine Marketing-Tabelle, sondern eine Faustregel pro Anwendungsfall, an die du dich am Ende wirklich erinnerst. Wir gehen durch Coding, Texte, Agenten und Routine-Tasks und schauen jeweils, wo die Top-Klasse den Preis wert ist und wo die mittlere Klasse exakt dasselbe Ergebnis liefert, nur für einen Bruchteil.

Der Mythos in einem Satz

Der Glaubenssatz lautet: das beste Modell liefert immer das beste Ergebnis, also nimm im Zweifel das teuerste. Klingt logisch, ist aber falsch. Richtig ist: das beste Modell liefert das beste Ergebnis bei Aufgaben, die echte Reasoning-Tiefe brauchen. Bei allem anderen liefert es das gleiche Ergebnis wie die mittlere Klasse, du zahlst nur mehr dafür.

Der Denkfehler steckt im Wort "besser". Ein Top-Modell ist nicht generell besser, es ist besser im Nachdenken. Wenn deine Aufgabe wenig Nachdenken braucht und viel Durchlauf, dann ist "besser im Nachdenken" eine Eigenschaft, für die du bezahlst, ohne sie zu nutzen. Genau hier verbrennen die meisten Leute Geld.

Die drei Klassen, ohne Preistabelle

Statt dich mit konkreten Cent-Beträgen zu verwirren, die sich sowieso jeden Monat ändern, merk dir die drei Klassen relativ zueinander. Die Top-Klasse (bei Anthropic heißt die Opus, bei anderen Anbietern gibt es die jeweils teuerste Stufe) kostet pro Token grob ein Vielfaches der Mittelklasse. Die Mittelklasse (Sonnet bei Anthropic, vergleichbare Stufen anderswo) ist der Daily Driver für fast alles. Die kleine Klasse (Haiku, oder bei Google die Flash-Stufe) ist nochmal deutlich günstiger und schnell.

Die genauen Faktoren verschieben sich ständig, deshalb nenne ich hier bewusst keine festen Zahlen. Was stabil bleibt, ist das Verhältnis: Top ist teuer und langsam-gründlich, Mitte ist der Allrounder, Klein ist billig und schnell. Wenn du das im Kopf hast, triffst du 90 Prozent der Entscheidungen richtig, ohne je eine Preisliste aufzumachen.

Die eine Frage, die alles entscheidet

Bevor du ein Modell wählst, stell dir eine einzige Frage: Würde ein erfahrener Mensch für diese Aufgabe lange überlegen müssen, oder macht er sie im Schlaf? Wenn er lange überlegen muss, brauchst du Reasoning-Tiefe, also eher die Top-Klasse. Wenn er sie im Schlaf macht, brauchst du Durchsatz, also die mittlere oder kleine Klasse.

Ein Beispiel macht das greifbar. "Finde den Bug in diesem verschachtelten Async-Code, der nur unter Last auftritt" ist eine Ueberleg-lange-Aufgabe. "Schreib mir aus diesen Stichpunkten einen sauberen Absatz" ist eine Im-Schlaf-Aufgabe. Die erste rechtfertigt den Aufpreis, die zweite nicht. Diese Frage ersetzt gefühlt die Hälfte aller Modell-Diskussionen, die ich je geführt habe.

Coding: hier lohnt sich Top am ehesten

Coding ist der Bereich, wo die Top-Klasse ihr Geld am häufigsten verdient, aber auch hier nicht immer. Bei einem größeren Refactor über mehrere Dateien, bei einem Bug, der sich durch drei Abstraktionsebenen zieht, oder bei einer Architektur-Entscheidung mit vielen Abhängigkeiten gewinnt die Top-Klasse spürbar. Sie hält mehr im Kopf, sie verheddert sich seltener, sie produziert weniger Folge-Fehler, die du dann wieder von Hand aufräumst.

Aber, und das ist der Punkt, den die Sportwagen-Fraktion übersieht: der Großteil des täglichen Codings ist gar nicht so schwer. Eine Funktion schreiben, einen Test ergänzen, ein Stück Boilerplate generieren, eine API anbinden, deren Doku du danebenlegst. Das macht die Mittelklasse genauso gut. Mein praktischer Schnitt: Mittelklasse als Default in der IDE, und nur wenn ich merke "die dreht sich im Kreis oder übersieht den Zusammenhang", schalte ich für diese eine Aufgabe auf Top hoch. So zahlst du den Aufpreis nur für die zehn Prozent der Tasks, die ihn wirklich brauchen.

Texte: fast immer Mitte, selten Top

Beim Schreiben kippt das Verhältnis komplett. Die allermeisten Texte, also Blog-Absätze, Produktbeschreibungen, E-Mails, Zusammenfassungen, Social-Posts, sind Im-Schlaf-Aufgaben für ein gutes Modell. Die Mittelklasse schreibt sie sauber, im richtigen Ton und ohne dass du am Ergebnis merken würdest, dass kein Top-Modell dran war. Hier den Aufpreis zu zahlen ist fast immer rausgeworfenes Geld.

Es gibt Ausnahmen, und die sind ehrlich gesagt selten. Ein langer Text, der eine durchgehende Argumentationslinie über viele Absätze halten muss, ohne sich zu widersprechen. Ein Stück, das echtes Fachwissen sauber gegeneinander abwägen soll. Da kann Top den Unterschied machen. Aber wenn du gerade einen Newsletter, eine Landingpage oder zehn Varianten einer Betreffzeile brauchst, nimm die Mittelklasse und freu dich über den Unterschied auf der Rechnung am Monatsende.

Agenten: der Knackpunkt ist Mischen, nicht Maximieren

Bei Agenten machen die meisten den teuersten Fehler überhaupt: sie setzen den teuersten Modell-Knopf für den gesamten Agenten und lassen ihn dann hunderte Schritte laufen. Ein Agent, der zwanzig Tool-Calls macht, um eine Datei zu finden, eine Tabelle zu lesen und einen Status zu posten, denkt bei den meisten dieser Schritte fast gar nicht nach. Trotzdem zahlst du für jeden Schritt den Top-Tarif.

Der Trick ist Mischen. Die schwere Planungsentscheidung am Anfang ("wie gehe ich dieses Problem an, welche Schritte in welcher Reihenfolge") kann ein Top-Modell übernehmen. Die stumpfe Ausführung danach ("ruf dieses Tool, lies das Ergebnis, geh zum nächsten Schritt") läuft auf der Mittel- oder Kleinklasse genauso zuverlässig. Wenn du einen Agenten baust, frag dich bei jedem Schritt-Typ einzeln, welche Klasse er braucht, statt eine Klasse für den ganzen Agenten festzunageln. Das ist oft der Unterschied zwischen einem Agenten, der sich rechnet, und einem, der dein Budget auffrisst.

Routine-Tasks: Top ist hier reine Geldverbrennung

Klassifizieren, taggen, formatieren, aus einem Text drei Felder extrahieren, kurze Zusammenfassungen, einfache Ja-Nein-Entscheidungen. Das sind Routine-Tasks, und sie sind der Ort, wo die kleine Klasse glänzt. Schnell, billig, und für diese Art Aufgabe genauso treffsicher wie alles darüber. Ein Top-Modell auf einen Tag-Task loszulassen ist, als würdest du einen Professor bezahlen, um Karteikarten zu sortieren.

Die Versuchung, trotzdem die große Klasse zu nehmen, kommt meist aus Unsicherheit ("was, wenn es doch mal komplizierter wird"). Bau lieber eine kleine Eskalation ein: kleine Klasse als Default, und nur die Fälle, bei denen sie unsicher ist oder die offensichtlich aus dem Rahmen fallen, reichst du an die Mittelklasse weiter. Bei Volumen-Tasks, wo du tausende Durchläufe machst, entscheidet diese eine Wahl über Faktoren auf der Rechnung, nicht über Prozente.

Der Advisor-Trick: Top plant, Mitte führt aus

Es gibt ein Muster, das die Vorteile beider Welten zusammenbringt, und es funktioniert erstaunlich oft. Du lässt die Top-Klasse einmal am Anfang den Plan machen, die schwere Denkarbeit, die Strategie, die Architektur. Dann übergibst du diesen Plan an die Mittelklasse, die ihn Schritt für Schritt abarbeitet. Ein teurer Denk-Call, viele billige Ausfuehr-Calls.

Das rechnet sich, weil Denken selten ist und Ausführen häufig. Du zahlst den Top-Tarif genau einmal für den Teil, der ihn wert ist, und nicht für die zwanzig stumpfen Schritte danach. Wir haben dazu ein eigenes Playbook (Opus als Berater, Sonnet als Executor), das den Aufbau im Detail zeigt. Wenn dein Use-Case eine klare Trennung zwischen "einmal gut nachdenken" und "danach viel abarbeiten" hat, ist das fast immer der wirtschaftlichste Weg.

Teste es selber, statt es zu glauben

Hier ist das Mini-Experiment, das jede Glaubensdiskussion beendet. Nimm zehn echte Aufgaben aus deinem Alltag, nicht ausgedachte. Lass jede einmal von der Top-Klasse und einmal von der Mittelklasse machen. Dann leg die Ergebnisse nebeneinander und frag dich ehrlich: bei wie vielen sehe ich wirklich einen Unterschied, der mir etwas wert ist?

Bei den meisten Leuten ist die Antwort ernüchternd: bei zwei oder drei von zehn. Das heißt, für sieben von zehn Aufgaben haben sie bisher den Aufpreis für nichts gezahlt. Und genau diese zwei oder drei Aufgaben, bei denen der Unterschied sichtbar war, das sind deine Top-Kandidaten. Den Rest schickst du ab jetzt an die Mittelklasse. Dieser Test dauert eine Viertelstunde und spart dir oft monatelang Geld, weil du danach nicht mehr rätst, sondern weißt.

Die Faustregel, die hängen bleibt

Wenn du dir aus diesem ganzen Playbook nur einen Satz merkst, dann diesen: nimm die Mittelklasse als Default und schalte nur dann auf Top hoch, wenn die Aufgabe echtes, tiefes Nachdenken verlangt, das ein erfahrener Mensch auch nicht im Schlaf erledigen würde. Coding-Refactor über viele Dateien, kniffliger Bug, harte Architektur-Entscheidung, langer Text mit durchgehender Argumentation. Das sind die Top-Fälle. Alles andere kann die Mittelklasse, und Routine kann die Kleine.

Teuer ist nicht besser, teuer ist gründlicher. Und Gründlichkeit ist nur dann ein Vorteil, wenn die Aufgabe sie auch abruft. Sobald du anfängst, pro Aufgabe zu fragen statt pauschal die große Klasse zu nehmen, sinkt deine Rechnung oft drastisch, ohne dass die Qualität deiner Ergebnisse auch nur einen Millimeter leidet. Das ist kein Trick, das ist einfach aufhören, für Reasoning zu zahlen, das du nicht nutzt.

Wenn du tiefer einsteigen willst: das Playbook "Opus als Berater, Sonnet als Executor" zeigt den Advisor-Aufbau Schritt für Schritt, und "Claude Code Cost Controls für Daily Driver" hilft dir, das Hochschalten auf Top kontrolliert in deinen Alltag einzubauen. Wenn du ganz vorne anfangen willst, schau in Level 1 die Lesson zum Modell-Vergleich an, da legen wir das Fundament, auf dem dieses Playbook aufbaut.

← MCP App bauen: interaktive UI Fallback-Modelle einrichten, d→