Playbook· build

GPT-5 oder Opus 4.8, welches Modell für welche Aufgabe

Die ehrliche Entscheidungshilfe ohne Vendor-Fanboy-Geschwurbel. Zehn Schritte vom Tier-Denken über Kosten und Kontext bis zum eigenen Mini-Eval. Am Ende weißt Du, wann sich das teure Modell lohnt und wann nicht.

Die Frage "GPT-5 oder Opus 4.8" wird meistens falsch gestellt. Die Leute fragen "welches ist besser", als gäbe es eine Tabelle mit einem Sieger. Die richtige Frage ist "welches passt zu meiner Aufgabe und meinem Budget". Und die Antwort ist oft "ein drittes, billigeres Modell". Dieser Playbook führt Dich durch zehn Schritte, an deren Ende Du eine begründete Wahl triffst statt einer Bauchentscheidung. Er ist für Dich, wenn Du anfängst, ernsthaft mit AI zu bauen, und nicht mehr blind das nehmen willst, was gerade im Trend ist.

Schritt 1, erst die Tier-Frage, dann die Vendor-Frage

Bevor Du GPT gegen Claude stellst, klär die Stufe. Beide Anbieter haben drei Tiers. Bei Claude sind das Haiku 4.5 als Budget-Tier, Sonnet 4.6 als Mittelklasse und Opus 4.8 als Spitze. Bei OpenAI gibt es GPT-5-mini, GPT-5 und GPT-5-Thinking für schwere Reasoning-Aufgaben. Die meiste Verschwendung passiert nicht zwischen den Anbietern, sondern innerhalb. Leute nehmen Opus für eine Aufgabe, die Haiku erledigt hätte, und zahlen das Fünffache. Frag also zuerst: brauche ich überhaupt die Spitze, oder reicht die Mittelklasse.

Schritt 2, wann Opus 4.8 die richtige Wahl ist

Opus 4.8 spielt seine Stärke bei zwei Dingen aus. Tiefes, mehrschrittiges Reasoning, bei dem das Modell einen Plan halten und über viele Schritte konsistent bleiben muss. Und Agenten-Arbeit, bei der das Modell selbstständig Werkzeuge aufruft und entscheidet. Wenn Du einen Coding-Agent baust, der über Stunden an einer Codebase arbeitet, oder eine Analyse, die zwanzig Zwischenschritte braucht, ist Opus 4.8 sein Geld wert. Bei kurzen, klaren Aufgaben dagegen merkst Du den Unterschied kaum, zahlst ihn aber trotzdem.

Schritt 3, wann GPT-5 die richtige Wahl ist

GPT-5 ist die naheliegende Wahl, wenn Du ohnehin im OpenAI-Ökosystem steckst, also Assistants, die OpenAI-Tools oder bestehende Integrationen nutzt. Auch wenn Du bewusst Vendor-Diversitaet willst, damit Du nicht von einem Anbieter abhängig bist, gehört GPT-5 in Deinen Stack. Und es gibt Aufgabenklassen, bei denen Teams in eigenen Tests GPT-5 vorn sehen. Welche das für Dich sind, findest Du nur durch Schritt 8 heraus, nicht durch Benchmarks von fremden Leuten.

Schritt 4, der Kontext-Faktor

Hier gibt es einen harten, überprüfbaren Unterschied. Opus 4.8 gibt es als Variante mit einer Million Token Kontext, geschrieben als claude-opus-4-8[1m]. Wenn Deine Aufgabe bedeutet, ein ganzes Repository, ein langes Vertragswerk oder einen kompletten Gesprächsverlauf am Stück zu verarbeiten, ist das ein echtes Argument. Pruef die aktuelle Kontextgröße beider Modelle auf den offiziellen Modellseiten, weil sich genau diese Zahlen schnell ändern. Aber als Entscheidungsdimension gilt: je größer der Heuhaufen, den das Modell auf einmal sehen muss, desto eher Opus mit der 1M-Variante.

Schritt 5, der Kosten-Vergleich, ehrlich gerechnet

Opus 4.8 kostet 5 Dollar pro Million Input-Tokens und 25 Dollar pro Million Output-Tokens. Das ist Spitzen-Tier-Preis. Die exakten GPT-5-Preise stehen auf der OpenAI-Modellseite und Du solltest sie dort live nachschlagen statt sie aus einem Blogpost zu übernehmen. Der wichtige Punkt ist nicht der Preis pro Modell, sondern die Rechnung für Dein Volumen. Tausend Anfragen am Tag mit je 2000 Output-Tokens summieren sich. Ein Tier-Wechsel von Spitze auf Mittelklasse halbiert oder drittelt die Rechnung oft, ohne dass die Qualität für Deine Aufgabe spürbar fällt.

Schritt 6, Tool-Use und Agenten-Fähigkeit

Wenn Du nicht nur Text generierst, sondern einen Agent baust, der Werkzeuge aufruft, dann zählt nicht die Sprachqualität, sondern wie zuverlässig das Modell die richtigen Werkzeuge in der richtigen Reihenfolge wählt und wann es aufhört. Beide Spitzenmodelle sind hier stark, aber sie verhalten sich unterschiedlich. Manche Modelle rufen lieber ein Werkzeug zu viel auf, andere zu wenig. Für einen Agent ist das oft entscheidender als jeder Reasoning-Benchmark. Teste das mit Deinem konkreten Werkzeug-Satz, nicht abstrakt.

Schritt 7, Sprache und DACH-Qualität

Wenn Du deutschsprachigen Output brauchst, der nicht nach übersetztem Englisch klingt, ist das eine eigene Dimension. Beide Modelle können Deutsch, aber der Ton, die Idiomatik und der Umgang mit Fachbegriffen unterscheiden sich. Das merkst Du nur, wenn Du dieselbe Aufgabe beiden gibst und die Antworten nebeneinander legst. Ein englischer Benchmark sagt Dir darüber nichts. Für eine DACH-Zielgruppe ist das ein realer Faktor, kein Detail.

Schritt 8, der Test statt der Meinung

Das ist der wichtigste Schritt. Sammle zehn bis zwanzig echte Aufgaben aus Deinem Alltag, keine erfundenen. Schick exakt dieselben Prompts an beide Modelle und leg die Antworten nebeneinander. Bewerte nach Deinen Kriterien, also Korrektheit, Ton, Format, Geschwindigkeit. Nach zwanzig echten Fällen weißt Du mehr als nach hundert fremden Benchmarks. Genau dafür gibt es ein eigenes Playbook, Agent-Eval in 60 Minuten, das Dir den Aufbau eines solchen Mini-Evals zeigt.

Schritt 9, der Mischbetrieb ist meistens die beste Antwort

Du musst Dich gar nicht für ein Modell entscheiden. Das produktivste Setup ist oft ein Router. Ein billiges, schnelles Modell fängt die einfachen Fälle ab, und nur die schweren werden ans teure Spitzenmodell durchgereicht. So zahlst Du den Spitzenpreis nur für die zwanzig Prozent der Anfragen, die ihn wirklich brauchen. Genau dieses Muster, ein gestaffelter Modell-Einsatz, spart in der Praxis am meisten Geld bei gleichbleibender Qualität. Wie Du das im Daily-Driver konkret aufsetzt, steht im Playbook Cost-Controls für den Daily-Driver.

Schritt 10, die Entscheidung in einem Satz

Wenn Du tiefes Reasoning oder lange Kontexte brauchst und Budget hast, nimm Opus 4.8. Wenn Du im OpenAI-Stack steckst oder bewusst Vendor-Vielfalt willst, nimm GPT-5. Wenn Deine Aufgabe einfach ist, nimm in beiden Fällen den Mittel- oder Budget-Tier und spar das Geld. Und egal was Du vermutest, verifizier es mit Deinem eigenen Mini-Eval aus Schritt 8, bevor Du Dich festlegst.

Was als nächstes

Wenn Du die Modell-Landschaft erst grundsätzlich verstehen willst, bevor Du vergleichst, fang mit der Modell-Vergleichs-Lesson in Level 1 an. Wenn Du schon auf Opus setzt und sauber von 4.7 auf 4.8 willst, geht es im Playbook Opus 4.8 Migration weiter. Und wenn Du den Mischbetrieb aus Schritt 9 ernsthaft bauen willst, ist das Eval-Playbook Dein nächster Halt.

Source

Aktuelle Modell-Daten, Kontextgrößen und Preise ändern sich schnell. Schlag sie vor jeder finalen Entscheidung an der Quelle nach, nicht in Blogposts.

Claude-Modellübersicht (Opus 4.8, Sonnet 4.6, Haiku 4.5, Pricing, Kontext): https://docs.claude.com/en/docs/about-claude/models/overview
OpenAI-Modellübersicht (GPT-5, GPT-5-mini, GPT-5-Thinking, Pricing, Kontext): https://platform.openai.com/docs/models

← Agentic Payments mit x402, was Subagents die Subagents spawne→