Das KI-Einmaleins für Entscheider

Das KI-Einmaleins für Entscheider: Eine Maschine, fünf Sätze, sechs Mythen

Token, Kontextfenster, Wissensstand, Halluzinationen – die Begriffe der KI-Welt wirken oft wie technische Vokabeln, die man auswendig lernen muss.

Das ist nicht nötig.

Viele dieser Begriffe lassen sich aus einem einzigen mentalen Modell ableiten: Ein Sprachmodell ist im Kern eine Maschine, die auf Basis gelernter Muster plausibel fortsetzt.

Wer dieses Grundprinzip verstanden hat, liest KI-Angebote, KI-Rechnungen und KI-Schlagzeilen mit anderen Augen.

Eine Übersetzungshilfe für Entscheiderinnen und Entscheider – ohne Mathematik.

Vorab: Es geht nicht um den Motor, sondern ums Fahren

Dieser Artikel zerlegt nicht die technische Architektur moderner KI-Systeme.

Transformer, Vektorräume, Parameterzahlen, Benchmark-Details – all das ist wichtig, aber nicht der Ausgangspunkt für gute Managemententscheidungen.

Für Entscheider ist eine andere Frage relevanter:

Wie verhält sich diese Technologie in der Praxis – und wo liegen ihre Grenzen?

Genau darum geht es: um fünf Begriffe, die Ihnen in Angeboten, Rechnungen, Produktankündigungen und KI-Diskussionen immer wieder begegnen.

Modell
Token
Kontextfenster
Wissensstand
Halluzination

Nach diesem Artikel sollten Sie alle fünf sauber einordnen können.

1. Modell: KI ist nicht gleich ChatGPT

Der erste Kategorienfehler beginnt oft ganz vorne:

KI ist nicht gleich ChatGPT.

Predictive Maintenance, Absatzprognosen oder Bilderkennung in der Qualitätssicherung gehören zu einer anderen Klasse von KI als ChatGPT, Claude oder Gemini.

Analytische KI erkennt Muster in Daten und trifft Prognosen.
Generative KI erzeugt Sprache, Bilder, Code oder andere Inhalte.

Dieser Artikel handelt von generativer KI – genauer: von Sprachmodellen.

Dabei ist eine zweite Unterscheidung wichtig:

Modell ist nicht Produkt.

GPT, Claude oder Gemini sind Modelle. ChatGPT, Claude.ai oder Gemini Advanced sind Produkte, die um diese Modelle herum gebaut werden – mit Benutzeroberfläche, Systemanweisungen, Websuche, Dateiuploads, Speicherfunktionen und zusätzlichen Werkzeugen.

Deshalb kann sich „dieselbe KI“ je nach Produkt, Anbieter und Konfiguration sehr unterschiedlich verhalten.

Der typische Irrtum lautet:

„Wir haben KI getestet – ChatGPT konnte das nicht.“

Genauer wäre:

Getestet wurde ein bestimmtes Produkt, in einer bestimmten Konfiguration, an einem bestimmten Tag.

Für Unternehmen heißt das: Nicht abstrakte Modellnamen entscheiden, sondern der konkrete Einsatzfall im eigenen Prozess.

2. Wie ein Sprachmodell arbeitet

Ein Sprachmodell hat riesige Textmengen verarbeitet und daraus Muster gelernt.

Beim Antworten schlägt es aber nicht einfach in einer Datenbank nach. Es sagt Baustein für Baustein voraus, wie ein Text mit hoher Wahrscheinlichkeit weitergeht.

Oder einfacher:

Es schlägt nichts nach. Es formuliert, was plausibel klingt.

Das ist der wichtigste Satz des ganzen Artikels.

Denn daraus folgt fast alles:

warum KI überzeugend falsche Antworten geben kann
warum Quellenprüfung wichtig bleibt
warum aktuelles Wissen nicht automatisch vorhanden ist
warum gute Anweisungen so viel ausmachen
warum Kosten stark von Länge und Nutzung abhängen

Ein Sprachmodell ist keine Wissensdatenbank.
Es ist eine Wahrscheinlichkeitsmaschine.

3. Token: Die Masseinheit der KI

Sprachmodelle lesen und schreiben nicht in Wörtern, sondern in Token.

Ein Token ist ein Textbaustein. Im Deutschen entspricht ein Token grob etwa einem Dreiviertelwort. Ein langes deutsches Wort kann also in mehrere Token zerlegt werden.

Das erklärt zwei praktische Dinge.

Erstens: KI kann bei Aufgaben scheitern, die für Menschen trivial wirken. Wenn Sie fragen, wie viele Buchstaben „e“ in einem Wort vorkommen, sieht das Modell nicht zwingend Buchstaben wie ein Mensch, sondern Token-Bausteine.

Zweitens: Token sind die Abrechnungseinheit.

Bezahlt wird in vielen KI-Produkten nicht nur für das, was das Modell schreibt, sondern auch für das, was es liest. Input und Output kosten also beide Geld.

Ein Beispiel aus aktuellen Preismodellen: Bei Spitzenmodellen können pro eine Million Token etwa 10 US-Dollar für Eingaben und 50 US-Dollar für Ausgaben anfallen. Die genaue Höhe variiert je nach Anbieter und Modell, aber das Prinzip bleibt gleich.

Je länger Anfrage, Dokumente und Antwort, desto höher die Kosten.

Deshalb lohnt es sich, Anfragen knapp und relevant zu halten.

Nicht aus Sparsamkeit allein, sondern weil präzisere Kontexte oft auch bessere Ergebnisse liefern.

4. Kontextfenster: Das Arbeitsgedächtnis, nicht das Archiv

Das Kontextfenster beschreibt, wie viel Information ein Modell gleichzeitig „vor sich liegen“ hat.

Ein gutes Bild dafür ist der Schreibtisch.

Das Kontextfenster ist nicht das Archiv des Unternehmens. Es ist der aktuelle Arbeitsbereich, auf dem Dokumente, Fragen, bisherige Antworten und zusätzliche Informationen liegen.

Moderne Spitzenmodelle können inzwischen sehr große Kontextfenster verarbeiten. Eine Million Token entspricht grob einem vollen Aktenordner, den das Modell auf einmal berücksichtigen kann.

Das klingt beeindruckend – und ist es auch.

Aber mehr Kontext ist nicht automatisch besser.

Ein voller Schreibtisch hat zwei Nachteile:

Erstens kostet er mehr.
Alles, was im Kontextfenster liegt, wird verarbeitet und damit in vielen Fällen bezahlt.

Zweitens kann er ablenken.
Wenn zu viele irrelevante Informationen mitgegeben werden, wird die Aufgabe nicht zwingend besser gelöst.

Der typische Irrtum lautet:

„Wir laden einfach alles hoch.“

Die bessere Frage lautet:

Welche Informationen braucht das Modell wirklich, um diese konkrete Aufgabe gut zu lösen?

Für Unternehmen ist das zentral. Gute KI-Anwendungen entstehen nicht dadurch, dass man möglichst viele Dokumente an ein Modell übergibt, sondern dadurch, dass die richtigen Informationen zur richtigen Aufgabe bereitstehen.

5. Wissensstand: Was das Modell weiß – und was nicht

Ein Sprachmodell lernt in der Trainingsphase.

Danach ist sein Wissen eingefroren – inklusive Wissensstichtag. Wenn ein Modell beispielsweise bis Januar 2026 trainiert wurde, kennt es die Welt danach nicht automatisch.

Im Gespräch lernt es nichts dauerhaft dazu.

Aktuelle Informationen kommen nur über zusätzliche Mechanismen hinein, zum Beispiel:

Websuche
angebundene Dokumente
interne Wissensdatenbanken
hochgeladene Dateien
Produktfunktionen des jeweiligen Anbieters

Das ist eine wichtige Unterscheidung.

Wenn ein KI-System aktuelle Informationen aus dem Internet oder aus Ihren Dokumenten nutzt, bedeutet das nicht, dass das Grundmodell dadurch dauerhaft neues Wissen gelernt hat.

Der typische Irrtum lautet:

„Die KI lernt aus jedem Gespräch mit.“

Die bessere Einordnung lautet:

Das Modell lernt im Gespräch nicht dauerhaft dazu. Aktuelles Wissen kommt über Werkzeuge oder Dokumente hinein.

Für Unternehmen ist das auch aus Datenschutzsicht wichtig. Ob Eingaben gespeichert, ausgewertet oder für Training genutzt werden dürfen, ist keine technische Selbstverständlichkeit, sondern eine Vertragsfrage.

6. Halluzinationen: Klingt sicher, ist es aber nicht immer

Wenn ein Modell darauf trainiert ist, plausible Fortsetzungen zu erzeugen, kann es auch plausible Fehler erzeugen.

Das nennt man Halluzination.

Das Problem ist nicht nur, dass die Antwort falsch sein kann. Das Problem ist, dass sie oft sehr überzeugend klingt.

Sprachliche Sicherheit ist deshalb kein Qualitätssignal.

Ein Modell kann eine richtige Aussage elegant formulieren.
Es kann aber auch eine falsche Aussage elegant formulieren.

Der typische Irrtum lautet:

„Halluzinationen werden bald behoben.“

Realistischer ist:

Halluzinationen werden gemanagt.

Das bedeutet: Unternehmen sollten Prozesse so gestalten, dass Fehler erkannt, begrenzt oder überprüfbar werden.

Praktische Maßnahmen sind zum Beispiel:

Quellen nennen lassen
wichtige Aussagen nachprüfen
klare Prüfpflichten definieren
kritische Inhalte im Vier-Augen-Prinzip freigeben
KI nicht allein über unumkehrbare Vorgänge entscheiden lassen

Für Faktenfragen gilt: Eine KI-Antwort ohne überprüfbare Quelle ist ein Entwurf, kein belastbarer Nachweis.

7. Mal stark, mal schwach: Die zackige Fähigkeitsgrenze

Eine der wichtigsten Eigenschaften moderner KI ist zugleich eine der irritierendsten:

Dasselbe Modell kann eine schwere Aufgabe hervorragend lösen – und an einer scheinbar leichten Nachbaraufgabe scheitern.

Dieses Phänomen wird oft als Jagged Frontier beschrieben: ein zackiges Fähigkeitsprofil.

Für Entscheider ist daraus eine einfache Regel abzuleiten:

Vor dem Einsatz mit eigenen Aufgaben ausprobieren.

Ein guter Test mit realistischen Aufgaben sagt mehr als jede Werbefolie.

Nicht ausreichend ist die Frage:

„Kann dieses Modell grundsätzlich gut analysieren?“

Besser ist:

„Kann dieses Modell unsere konkrete Aufgabe mit unseren Daten, unseren Qualitätsanforderungen und unseren Risiken zuverlässig genug lösen?“

Deshalb sollten KI-Piloten nicht abstrakt sein. Sie sollten an echten Aufgaben gemessen werden.

8. KI mit eigenem Wissen verbinden

Viele Unternehmen stellen irgendwann dieselbe Frage:

Wie verbinden wir KI mit unserem eigenen Unternehmenswissen?

Dafür gibt es im Grundsatz drei Wege – vom einfachsten zum aufwendigsten.

1. Gut anweisen

Der erste Weg ist ein gutes Briefing.

Ein Prompt ist im Grunde die Arbeitsanweisung an einen fähigen neuen Mitarbeiter, der Ihr Unternehmen noch nicht kennt.

Je klarer Aufgabe, Kontext, Zielgruppe, gewünschtes Format und Qualitätskriterien beschrieben sind, desto besser wird das Ergebnis.

Das kostet wenig und ist häufig der schnellste Hebel.

2. Dokumente anschließen

Der zweite Weg ist, dem Modell zur Laufzeit relevante Dokumente mitzugeben.

Das ist das Prinzip hinter RAG – Retrieval-Augmented Generation.

Ein einfaches Bild: Die KI schreibt eine Klausur mit offenem Buch. Sie muss nicht alles auswendig können, sondern bekommt die richtigen Unterlagen zur Aufgabe.

So lässt sich Unternehmenswissen nutzbar machen, ohne gleich ein eigenes Modell zu trainieren.

Typische Beispiele:

Richtlinien
Produktinformationen
Vertragsvorlagen
Wissensdatenbanken
Projektdokumentationen
Angebotsbausteine
interne Prozessbeschreibungen

3. Nachtrainieren

Der dritte Weg ist Fine-Tuning.

Dabei wird ein Modell tatsächlich nachtrainiert. Das kann sinnvoll sein, ist aber deutlich aufwendiger, teurer und pflegeintensiver.

Für viele Unternehmen gilt daher:

Die meisten Anwendungsfälle lassen sich mit guten Anweisungen und angeschlossenen Dokumenten lösen.

Der typische Irrtum lautet:

„Eigene Daten heißt: eigenes Modell trainieren.“

In vielen Fällen heißt es:

Die richtigen Unterlagen zur Laufzeit bereitstellen.

9. Schnelle und denkende Modelle

Moderne KI gibt es zunehmend in zwei Gangarten.

Schnell

Schnelle Modelle antworten sofort, sind günstiger und eignen sich für viele Alltagsaufgaben.

Typische Anwendungen:

Texte strukturieren
E-Mails entwerfen
einfache Zusammenfassungen
Ideen sammeln
Routineaufgaben vorbereiten

Denkend

Denkende Modelle investieren mehr Rechenzeit vor der Antwort. Sie sind langsamer und teurer, können aber bei komplexeren Fragen bessere Ergebnisse liefern.

Typische Anwendungen:

komplexe Analysen
strategische Abwägungen
anspruchsvolle Programmieraufgaben
juristische oder regulatorische Vorarbeit
mehrstufige Problemlösung

Das erklärt, warum viele Tools inzwischen Modell-Wahlschalter haben – und warum sich Preise so stark unterscheiden.

Der typische Irrtum lautet:

„Größer ist automatisch besser.“

Die bessere Frage lautet:

Welche Modellklasse passt zu welcher Aufgabe?

Nicht jede Fahrt braucht den Vorstandswagen.

10. Was passiert mit unseren Daten?

Eine der häufigsten Entscheiderfragen lautet:

Trainiert die KI mit unseren Daten?

Die ehrliche Antwort ist:

Es steht im Vertrag.

Bei kostenlosen Privatversionen können Eingaben je nach Anbieter und Einstellung für Training oder Produktverbesserung genutzt werden.

Bei Firmenverträgen, Enterprise-Produkten oder API-Verträgen ist Training in der Regel ausgeschlossen oder vertraglich geregelt. Auch Speicherfristen werden dort definiert.

Wichtig ist die Unterscheidung:

Speichern ist nicht Lernen.

Wenn ein Anbieter Daten temporär speichert, etwa zur Missbrauchskontrolle oder technischen Verarbeitung, ist das nicht automatisch dasselbe wie Training.

Für Einkauf, Datenschutz und Geschäftsführung ist diese Differenzierung entscheidend.

Gute Fragen im Anbietercheck sind:

Werden unsere Eingaben für Training genutzt?
Wie lange werden Daten gespeichert?
Wo werden Daten verarbeitet?
Gibt es Auftragsverarbeitung?
Welche Rollen- und Rechtekonzepte gibt es?
Können Datenflüsse nachvollzogen werden?

Die Datenfrage entscheidet sich nicht im Marketingprospekt, sondern im Vertrag.

11. Das Wichtigste in fünf Sätzen

Wer generative KI strategisch einordnen möchte, braucht kein Glossar mit fünfzig Begriffen.

Fünf Sätze reichen für den Anfang:

Das Modell rät den wahrscheinlichsten Text – es weiß nicht, es formuliert.
Bezahlt wird pro Token, beim Lesen und beim Schreiben.
Das Kontextfenster ist Arbeitsgedächtnis, nicht Wissen.
Überzeugend klingt nicht automatisch richtig – Wichtiges muss geprüft werden.
Firmenwissen kommt über gute Anweisungen und Dokumente hinein – fast nie über eigenes Training.

Diese fünf Sätze machen fast jede KI-Diskussion klarer.

12. Zum Ausprobieren: zehn Minuten am Montag

Wer das Thema praktisch greifbar machen möchte, kann mit zwei einfachen Tests starten.

Test 1: Modelle vergleichen

Stellen Sie dieselbe Frage einmal an ein schnelles Modell und einmal an ein denkendes Modell.

Vergleichen Sie:

Antwortqualität
Dauer
Kosten
Nachvollziehbarkeit
Nutzen für Ihre konkrete Aufgabe

So entsteht schnell ein Gefühl dafür, wann ein teureres Modell wirklich Mehrwert bringt – und wann nicht.

Test 2: Kontext vergleichen

Geben Sie dieselbe Aufgabe einmal mit einem ganzen Dokument und einmal nur mit der relevanten Seite.

Vergleichen Sie:

Wird die Antwort präziser?
Wird sie kürzer oder fokussierter?
Spart die reduzierte Variante Kosten?
Geht wichtige Information verloren?

Dieser Test zeigt sehr anschaulich, warum „mehr Kontext“ nicht automatisch besser ist.

Ausblick: Agenten verändern die Risikoklasse

Der nächste Schritt nach Chatbots sind Agenten.

Ein Agent beantwortet nicht nur Fragen, sondern erledigt Aufgaben über mehrere Schritte hinweg. Er kann Werkzeuge nutzen, Systeme ansprechen und Entscheidungen vorbereiten.

Damit verändert sich die Risikoklasse.

Eine falsche Antwort ist ärgerlich.
Eine falsche Handlung kann teuer werden.

Deshalb wird bei Agenten ein Prinzip besonders wichtig:

Human in the Loop.

Menschen müssen an den Stellen eingebunden bleiben, an denen Entscheidungen unumkehrbar, teuer, rechtlich relevant oder sicherheitskritisch sind.

Fazit

Das KI-Einmaleins für Entscheider besteht nicht aus Technikdetails. Es besteht aus einem belastbaren mentalen Modell.

Generative KI formuliert plausibel.
Sie verarbeitet Token.
Sie arbeitet mit einem begrenzten Kontextfenster.
Sie kennt nur, was im Modell, in Werkzeugen oder in bereitgestellten Dokumenten verfügbar ist.
Sie kann überzeugend falsch liegen.

Wer das verstanden hat, kann bessere Fragen stellen:

Welches Modell passt zu welcher Aufgabe?
Welche Informationen braucht es wirklich?
Wo müssen Ergebnisse geprüft werden?
Welche Daten dürfen genutzt werden?
Was steht im Vertrag?
Welche Kosten entstehen beim Lesen und Schreiben?

Damit wird KI weniger mystisch – und deutlich besser steuerbar.

Mehr Einordnung im KI-Strategiebriefing

Diese und weitere Themen vertiefen wir wöchentlich im KI-Strategiebriefing von Silbury – kompakt, praxisnah und mit Blick auf strategische Entscheidungen.

Jeden Freitag um 8:00 Uhr · live online · mit Q&A

👉 Jetzt zum nächsten KI-Strategiebriefing anmelden: www.silbury.com/strategie

Quellen

Anthropic – Modell- und Preisdokumentation Claude Fable 5 / Mythos 5
Wall Street Journal, CFO Journal – „The Metric CFOs Struggle to Track: AI Usage“
KPMG-Umfrage, Juni 2026
Dell’Acqua et al. (Harvard/BCG) – „Navigating the Jagged Technological Frontier“
METR – Time-Horizons-Messreihe zu autonomen Aufgabendauern
Anbieter-Dokumentationen zu Tokenisierung, Kontextfenstern und Denkmodi: OpenAI, Anthropic, Google