Grundlagen7 Min Lesezeit

Wie ein Sprachmodell wirklich funktioniert

Sprachmodelle sind die unsichtbaren Maschinen hinter Claude, ChatGPT, Gemini, Grok, Mistral. Wer im Marketing damit arbeitet, muss kein Maschinen-Lernen studieren. Aber ein paar Konzepte zu verstehen, hilft. Tokens, Kontext-Fenster, Temperature, Halluzinationen. Vier Begriffe, vier Stolperfallen weniger im Werktag. Diese Seite erklärt sie in Marketing-Analogien, ohne Mathematik, ohne Architektur-Skizzen.

Tokens, die Bausteine der Sprache

Ein Sprachmodell liest und schreibt nicht in Wörtern. Es liest und schreibt in Tokens. Ein Token ist meistens eine Silbe, ein kurzes Wort oder ein Wort-Fragment. „Marketing" ist ein Token, „Marketingteam" sind drei. „Hallo" ist ein Token, „Hallöchen" sind zwei.

Warum das im Werktag zählt:

Preis. Anbieter rechnen nach Tokens ab. Ein 500-Wort-Briefing kostet etwa 750 Tokens. Bei großen Modellen liegt der Preis bei 5 bis 20 Cent pro 1.000 Tokens, je nach Anbieter. Wer in Volumen arbeitet, kalkuliert mit. Bei Enterprise-Tarifen meistens Flatrate-Modell.

Geschwindigkeit. Lange Prompts dauern länger. Das fühlt sich banal an, ist aber bei Multi-Modell-Workflows relevant.

Limit. Jedes Modell hat ein maximales Input-Limit (Kontext-Fenster, siehe unten). Wer es überschreitet, bekommt entweder eine Fehlermeldung oder einen abgeschnittenen Output.

Kontext-Fenster, das Gedächtnis des Moments

Sprachmodelle haben kein dauerhaftes Gedächtnis. Sie können nicht „über die Zeit" lernen, was ein bestimmter Mensch oder ein bestimmtes Team braucht. Was sie haben: ein Kontext-Fenster. Eine Menge Tokens, die sie gleichzeitig im Blick behalten.

Aktuelle Größen (Stand Mai 2026):

Modell	Kontext-Fenster
Claude Opus 4.7	1 Million Tokens
Claude Sonnet 4.6	1 Million Tokens
GPT-5.5	1 Million Tokens
Gemini 3.1 Pro	2 Millionen Tokens
Grok 4	256.000 Tokens
Mistral Large 3	128.000 Tokens

Eine Million Tokens entspricht ungefähr 750.000 Wörtern oder rund 2.500 Buchseiten. Wer ein 30-Seiten-Briefing plus drei Vorgänger-Reports plus einen Style-Guide in den Kontext lädt, hat noch viel Luft.

Was passiert nach dem Kontext-Fenster: Modell vergisst alles. Im nächsten Chat ist es wieder bei Null. Persistenz entsteht nur über Skills, Custom GPTs oder externe Speicher (siehe /grundlagen/skills-und-custom-gpts).

Temperature, die Kreativitäts-Schraube

Ein Sprachmodell hat einen Parameter namens Temperature. Vereinfacht: wie konservativ oder kreativ soll das Modell beim Wort-für-Wort-Schreiben sein?

Temperature 0: Maximal konservativ. Wahrscheinlichstes nächstes Token. Nützlich für Code, für Faktentreue, für reproduzierbare Outputs.

Temperature 1: Standard-Setting in den meisten Chat-Anwendungen. Mischung aus konservativ und überraschend.

Temperature 2: Sehr kreativ. Manche Outputs werden interessant, viele werden Unsinn.

Im Marketing relevant:

Reporting-Aufbereitung läuft mit niedriger Temperature. Faktentreue zählt.
Caption-Brainstorming läuft mit höherer Temperature. Vielfalt zählt.
Strategie-Sparring mit mittlerer Temperature. Substanz plus Überraschung.

Die meisten Chat-Oberflächen verstecken Temperature. Wer programmatisch arbeitet (API, MCP-Pipeline, Custom GPT), stellt sie explizit ein.

Halluzinationen, der eingebaute Fehler

Sprachmodelle können Dinge erfinden. Sie tun das nicht aus Bosheit oder Inkompetenz, sondern weil sie statistisch arbeiten. Wenn ein Modell nicht weiß, was nach einem Satz kommt, sagt es nicht „weiß ich nicht", sondern produziert das wahrscheinlichste Wort. Wenn diese Wahrscheinlichkeit auf einem falschen Pfad sitzt, entsteht eine plausibel klingende falsche Aussage.

Drei Halluzinations-Typen tauchen im Marketing-Werktag wiederholt auf.

Faktische Halluzinationen. Erfundene Zahlen, erfundene Zitate, erfundene Studien. Klassiker: „Laut einer Studie der Universität X aus 2023…", die Studie gibt es nicht.

Quellen-Halluzinationen. Korrekte Aussage, falsche Quelle. Das Modell weiß etwas, attribuiert es aber an die falsche Stelle. In Deep-Research-Reports besonders gefährlich.

Kontext-Halluzinationen. Das Modell füllt Lücken in einem Briefing mit Annahmen, die plausibel klingen, aber nicht im Input standen. „Die Marke ist agil, mutig und nahbar", das Briefing sagte nur „Die Marke ist jung".

Schutz: Quality Gates (siehe /alltag/quality-gates). Verifikation kritischer Fakten, Adjektivketten-Heuristik, Quellen-Check.

Was Sprachmodelle nicht haben

Drei Eigenschaften, die häufig angenommen werden, aber nicht zutreffen.

Sie haben kein Verständnis. Sie haben Mustererkennung. Das ist mächtig, aber nicht dasselbe.

Sie haben keinen Willen. Wenn ein Modell „freundlich" oder „kritisch" wirkt, ist das ein Stil-Setup, kein Charakter.

Sie haben kein Gedächtnis im klassischen Sinn. Was nach dem Chat ist, ist weg. Persistenz braucht externe Strukturen.

Trade-offs

Was sich verschiebt	Konsequenz
Tokens als Preis-Basis	Volumen-Setups brauchen Kalkulation
Kontext-Fenster mit Millionen Tokens	Ganze Reports in einen Prompt passen rein
Temperature explizit steuerbar	Workflow-Spezifika werden konfigurierbar
Halluzinations-Risiko strukturell	Quality Gates Pflicht
Kein persistentes Gedächtnis	Skills und Custom GPTs als Brücke

Take

Sprachmodelle sind keine Magie und keine Bedrohung. Sie sind sehr leistungsfähige Mustererkenner mit Sprach-Schnittstelle. Wer die vier Konzepte versteht (Tokens, Kontext, Temperature, Halluzinationen), arbeitet im Werktag wesentlich entspannter. Und realistischer.

Was offen bleibt

Die Grenze zwischen Sprachmodell und Agent verschwimmt. Aktuelle Modelle bekommen zunehmend agentische Fähigkeiten eingebaut (Tool-Use, Multi-Step-Reasoning). Was 2026 noch ein Sprachmodell mit Add-ons ist, könnte 2027 ein Agent sein. Beobachtung empfohlen.

Verwandt

Wie Sprachmodelle in unterschiedlichen Modi funktionieren Wie Persistenz aufgesetzt wird Wie Halluzinations-Risiken kontrolliert werden

llmsprachmodelltokenskontexttemperaturehalluzinationen