Ein Large Language Model ist ein großes künstliches Neuronales Netzwerk, das Wahrscheinlichkeiten für Wort- bzw. Tokenfolgen schätzt: Es sagt voraus, welches Token mit welcher Wahrscheinlichkeit als Nächstes in einer gegebenen Kontextsequenz auftreten sollte.

Aus dieser einfachen, aber sehr generischen Fähigkeit entsteht fast alles, was LLMs tun: vom Weiter-Schreiben eines Absatzes über Übersetzung bis hin zu komplexer Dialogführung.

Der Begriff „large“ bezieht sich primär auf zwei Dimensionen:

die Anzahl der Parameter (typischerweise Milliarden bis Hunderte Milliarden),
die Größe und Vielfalt der Trainingsdaten (Milliarden bis Billionen Tokens aus sehr verschiedenen Quellen).

LLMs gehören zur Unterklasse der Generativen KI (GenAI), weil sie nicht nur klassifizieren oder bewerten, sondern explizit neue Inhalte erzeugen.

Zentrale Architektur: Transformer

Moderne LLMs basieren fast ausnahmslos auf der Transformer-Architektur, die 2017 eingeführt wurde und Self-Attention als Kernmechanismus nutzt.

Transformer sind besonders gut darin, lange Sequenzen parallel zu verarbeiten und dabei kontextuelle Abhängigkeiten über viele Tokens hinweg abzubilden – ein entscheidender Vorteil gegenüber älteren RNN- oder LSTM-Modellen.

Typische Komponenten eines LLM (vereinfacht):

Tokenisierung: Zerlegung des Eingabetexts in Tokens (Wörter, Subwörter oder Zeichen) sowie deren Umwandlung in IDs.
Embeddings: Zuordnung jeder Token-ID zu einem Vektor in einem hochdimensionalen Raum, der semantische Ähnlichkeiten abbildet.
Mehrere Transformer-Schichten: Jede Schicht enthält normalerweise Self-Attention und Feedforward-Netze; mit zunehmender Tiefe werden abstraktere Muster und Konzepte repräsentiert.
Output-Projektion: Transformation des letzten Hidden-States in eine Wahrscheinlichkeitsverteilung über das Vokabular (Softmax-Schicht).

Self-Attention berechnet für jedes Token, wie stark es auf andere Tokens in der Sequenz „achten“ soll, um seine eigene Repräsentation zu verbessern.

Dadurch können Abhängigkeiten wie Anaphern („er“, „sie“), lange Kausal- oder Argumentationsketten und syntaktische Strukturen sehr flexibel abgebildet werden.

Trainingsprozess: Vortraining und Feinabstimmung

Der Lebenszyklus eines LLM lässt sich grob in zwei Phasen einteilen: Foundation-Vortraining und nachgelagerte Anpassung (Fine-Tuning, Instruction Tuning, RLHF usw.).

Foundation-Vortraining

Im Vortraining wird das Modell auf sehr großen, weitgehend unstrukturierten Textkorpora trainiert, etwa aus Webseiten, Büchern, Foren und Code-Repos.

Typisch sind Self-Supervised-Lernaufgaben wie: nächstes Token vorhersagen (autoregressiv), maskierte Tokens rekonstruieren (BERT-artige Modelle).

Wichtige Schritte:

Datenaufbereitung: Sammlung, Bereinigung, Deduplizierung, Filterung (z.B. nach Sprache, Qualität, toxischen Inhalten). Tokenisierung und numerische Darstellung (Token-IDs).
Iteratives Training mit einer Verlustfunktion (z.B. Cross-Entropy), die misst, wie sehr die Vorhersage des Modells vom tatsächlichen nächsten Token abweicht.
Optimierung der Parameter über viele Epochen mit verteiltem Training auf GPU/TPU-Clustern.
Das Ergebnis ist ein „Foundation Model“, das breite sprachliche Muster (Grammatik, Semantik, einfache Weltfakten) verallgemeinert hat, aber noch nicht zwingend interaktiv nutzbar oder sicher genug ist.

Feinabstimmung und Alignment

Nach dem Vortraining wird das Modell weiter angepasst, um bestimmte Nutzungsszenarien zu unterstützen und Risiken zu reduzieren.

Wichtige Verfahren:

Supervised Fine-Tuning (SFT): Training auf kuratierten Input-Output-Beispielen (z.B. Frage-Antwort-Paare, Code-Lösungen, Dialoge), um gewünschtes Verhalten zu verstärken.
Instruction Tuning: Speziell strukturierte Beispiele, bei denen natürliche Sprachinstruktionen zu gewünschten Antworten führen, sodass das Modell „Instruktionen versteht“.
Reinforcement Learning from Human Feedback (RLHF): Menschen bewerten Modellantworten; ein Rewards-Modell lernt diese Präferenzen, und das LLM wird darauf mit Reinforcement Learning abgestimmt.

Ziel ist es, das rohe Sprachmodell in einen nutzbaren Assistenten zu verwandeln, der Anweisungen befolgt, hilfreiche Antworten gibt und Richtlinien beachtet.

Inferenz: Wie Textgenerierung abläuft

Bei der Nutzung eines LLM (Inference) wird der Eingabetext zunächst tokenisiert und durch die Embedding- und Transformer- schichten geleitet, um für jedes Positionstoken eine interne Repräsentation zu berechnen.

Am Ende entsteht eine Wahrscheinlichkeitsverteilung über das nächste Token, aus der nach bestimmten Sampling-Strategien gewählt wird.

Übliche Strategien:

Greedy Decoding: Immer das wahrscheinlichste Token wählen; führt oft zu deterministischen, aber manchmal eintönigen und repetitiven Texten.

Temperature-Sampling: Adjustierung der Verteilung; höhere Temperatur verteilt Wahrscheinlichkeit gleichmäßiger (kreativer, aber risikoreicher), niedrigere macht die Ausgaben konservativer.

Top-k / Top-p (Nucleus) Sampling: Auswahl nur aus den wahrscheinlichsten k Tokens oder dem kleinsten Token-Set, das eine kumulierte Wahrscheinlichkeit p erreicht; balanciert Kohärenz und Vielfalt.

Der Kontext wird normalerweise als Sequenz von Tokens (Prompt + ggf. System- und Verlaufsnachrichten) verarbeitet, die Länge ist durch das Kontextfenster des Modells begrenzt (z.B. einige Tausend bis Hunderttausende Tokens bei neueren Modellen).

Typische Fähigkeiten und Einsatzfelder

LLMs können mit demselben Kernmodell eine erstaunliche Vielfalt von Sprachaufgaben bearbeiten, oft ohne explizites Task-spezifisches Training („Zero-Shot“), oder mit wenigen Beispielen im Prompt („Few-Shot“).

Häufige Fähigkeiten:

Textgenerierung,
Verfassen von Artikeln,
E-Mails,
kreativen Texten,
Codekommentaren.

Zusammenfassung: Verdichtung langer Texte in Kurzfassungen unterschiedlicher Detailebene.

Übersetzung: Übertragung zwischen Sprachen, ggf. stil- oder domänenspezifisch.

Klassifikation: Sentiment-Analyse, Themenzuordnung, Spam-Erkennung und Ähnliches.

Codeunterstützung: Vorschläge, Vervollständigung und Erklärung von Code in vielen Programmiersprachen.

Wissensabfrage und Reasoning: Beantworten von Fragen, Schritt-für-Schritt-Erklärungen (Chain-of-Thought-Prompting), einfache logische Schlüsse.

Einsatzfelder

Einsatzfelder reichen von Customer Support über Assistenzsysteme in der Wissensarbeit (z.B. Recherche, Schreiben, Dateninterpretation) bis hin zu Entwickler-Tools, Bildungsanwendungen oder domänenspezifischen Copilots in Medizin, Recht, Industrie usw.

Grenzen und Risiken

Trotz beeindruckender Fähigkeiten haben LLMs strukturelle Beschränkungen und Risiken, die für fundierte Nutzung entscheidend sind.

Zentrale Probleme: Halluzinationen: LLMs erzeugen plausible, aber faktisch falsche Aussagen, weil sie nur Wahrscheinlichkeitsverteilungen über Tokens modellieren, nicht Wahrheit oder Beweisbarkeit.

Datenbias und toxische Inhalte: Vorurteile oder diskriminierende Muster im Training setzen sich in den Ausgaben fort, teils subtil, teils explizit.

Mangelnde Aktualität: Reine LLM-Modelle „frieren“ mit ihrem Trainingscutoff ein; ohne Retrieval-Mechanismen kennen sie neuere Fakten nicht.

Erklärbarkeit: Die internen Repräsentationen sind schwer interpretierbar; es gibt laufende Forschung zu mechanistic interpretability, aber wenig praxisreife Werkzeuge.

Darum werden LLMs in vielen produktiven Systemen mit zusätzlichen Sicherungs- und Kontrollschichten kombiniert, etwa Retrieval-Augmented Generation (RAG), Moderationsfilter, menschliche Kontrolle („Human-in-the-Loop“) und strenge Evaluationspipelines.

Praktische Nutzung: Vom Prompt zum System

In der Praxis sind LLMs heute häufig nicht direkt, sondern über Dienste und APIs zugänglich, die das rohe Modell mit Zusatzfunktionen kombinieren.

Typische Bausteine:

Prompt-Engineering und -Vorlagen (Rollenanweisungen, Formatvorgaben, Beispiele).
Tools/Plugins (z.B. Anbindung an Suchsysteme, Datenbanken, Unternehmens-Wissensbasen).
Guardrails (Regelsysteme, die bestimmte Antworten blockieren oder umleiten).

Für Entwickler und Forscher ist es wichtig, das statistische Wesen eines LLM im Hinterkopf zu behalten: Es „weiß“ nichts im menschlichen Sinn, sondern approximiert komplexe, hochdimensionale Verteilungen über Symbolsequenzen.

Das erklärt sowohl seine Flexibilität als auch seine Fehlertypen.

Praktische Nutzung: Vom Prompt zum System

In der Praxis sind LLMs heute häufig nicht direkt, sondern über Dienste und APIs zugänglich, die das rohe Modell mit Zusatzfunktionen kombinieren.

Typische Bausteine:

Prompt-Engineering und -Vorlagen (Rollenanweisungen, Formatvorgaben, Beispiele). Tools/Plugins (z.B. Anbindung an Suchsysteme, Datenbanken, Unternehmens-Wissensbasen). Guardrails (Regelsysteme, die bestimmte Antworten blockieren oder umleiten).

Das erklärt sowohl seine Flexibilität als auch seine Fehlertypen.

Weitere Highlights

Prognosen

(•) Das Jahr 2024 — und die Zukunft

(•) Wird KI eine "Superintelligenz" schaffen, die uns alle beherrscht?

Bedrohliches

(•) KI in der Rüstungsindustrie

Dr. Paulo Heitlinger

Autor, Vortragender, Fachlicher Ansprechpartner

Web-site, das E-Book, die Newsletter und die Vorträge werden mit Hilfe von KI-Lösungen erstellt.

LLM - was ist es?

Ein LLM („Large Language Model“) auf Deutsch: „großes Sprachmodell“, ist ein spezieller Typ von KI-System, der auf Grundlage riesiger Textmengen gelernt hat, Sprache statistisch zu modellieren und dadurch neue Texte zu erzeugen, zu verstehen und zu transformieren.

LLMs sind heute die zentrale Basistechnologie hinter Chatbots wie ChatGPT, Claude oder LLaMA-basierten Assistenten und werden in sehr vielen Bereichen von Informatik, Wirtschaft und Wissenschaft eingesetzt.

Zentrale Architektur: Transformer

Trainingsprozess: Vortraining und Feinabstimmung

Foundation-Vortraining

Feinabstimmung und Alignment

Inferenz: Wie Textgenerierung abläuft

Typische Fähigkeiten und Einsatzfelder

Einsatzfelder

Grenzen und Risiken

Praktische Nutzung: Vom Prompt zum System

Praktische Nutzung: Vom Prompt zum System

Weitere Highlights

Prognosen

(•) Das Jahr 2024 — und die Zukunft

(•) Wird KI eine "Superintelligenz" schaffen, die uns alle beherrscht?

Grundsätzliches

(•) Was ist eigentlich »Lernen« ?

(•) Was sind »Neuronale Netze«?

(•) Was sind Kognitive Systeme?

(•) Supercomputer für KI

Entwicklungen

(•) Large Language Models LLMs

(•) Supercomputer

(•) Was ist ein Quanten-Computer?

(•) Quanten-Programme

(•) Roboter und KI

(•) Bessere Wetterprognosen mit KI

(•) Das Internet der Dinge (IoT)

(•) KI in Audio

Bedrohliches

(•) KI in der Rüstungsindustrie