Kontext und Tokens — was das Modell sieht
Warum das Modell nach 50 Nachrichten vergisst und was Du dagegen tun kannst.
Was ist ein Token?
Ein Token ist eine Wort-Einheit für das Modell. Grob: 1 Wort = 1 bis 2 Tokens im Deutschen, ein bisschen weniger im Englischen. "Halluzinieren" = 4 Tokens.
Was ist das Kontext-Fenster?
Die maximale Menge Tokens die das Modell auf einmal "sehen" kann. Wie viel Text auf einen Tisch passt. Wenn Du mehr reinschiebst, fällt der aelteste Teil runter.
Typische Groessen (Stand April 2026, ändert sich schnell):
- GPT-5: 128k Standard, 200k via API
- Claude Opus: 1M Tokens im 1M-Context-Modus
- Gemini 2.5 Pro: 2M Tokens
200k Tokens sind ungefähr 400 Seiten Text. 1M sind 2.000 Seiten. Die Zahlen wachsen — was heute das Maximum ist, ist in sechs Monaten vermutlich Standard.
Warum das wichtig ist
In einem langen Chat wird irgendwann der aelteste Teil der Konversation aus dem Kontext geworfen. Das Modell "vergisst" dann was am Anfang besprochen wurde. Das ist kein Bug, das ist die Architektur.
Für Dich heisst das:
- Wenn Du viel Kontext brauchst, erwaehne die wichtigsten Punkte nochmal
- Sehr lange Dokumente zusammenfassen bevor Du sie reingibst
- Bei wirklich komplexen Themen: neue Session starten und mit sauberem Kontext anfangen
Context Cache
Moderne Modelle cachen wiederkehrende Prompts. Wenn Du einen Text-Block (System-Prompt, Dokument) oft wiederholst, wird der gecached — das spart Kosten und Zeit. Das erklären wir in Level 2.
Der Game-Changer
Ab Level 4 lernst Du Memory-Systeme die über den Context hinaus gehen. Das ist der Ausweg aus dem "Modell vergisst" Problem.