|
Ein Large Language
Model ist ein großes künstliches Neuronales Netzwerk, das
Wahrscheinlichkeiten für Wort- bzw. Tokenfolgen schätzt: Es sagt
voraus, welches Token mit welcher Wahrscheinlichkeit als Nächstes in einer
gegebenen Kontextsequenz auftreten sollte.
Aus dieser einfachen, aber sehr generischen
Fähigkeit entsteht fast alles, was LLMs tun: vom Weiter-Schreiben eines
Absatzes über Übersetzung bis hin zu komplexer Dialogführung.
Der Begriff large bezieht sich
primär auf zwei Dimensionen:
- die Anzahl der Parameter (typischerweise Milliarden
bis Hunderte Milliarden),
- die Größe und Vielfalt der Trainingsdaten
(Milliarden bis Billionen Tokens aus sehr verschiedenen Quellen).
LLMs gehören zur Unterklasse der Generativen
KI (GenAI), weil sie nicht nur klassifizieren oder bewerten, sondern
explizit neue Inhalte erzeugen.
Zentrale Architektur: Transformer
Moderne LLMs basieren fast ausnahmslos auf der
Transformer-Architektur, die 2017 eingeführt wurde und Self-Attention als
Kernmechanismus nutzt.
Transformer sind besonders gut darin, lange Sequenzen
parallel zu verarbeiten und dabei kontextuelle Abhängigkeiten über
viele Tokens hinweg abzubilden ein entscheidender Vorteil gegenüber
älteren RNN- oder LSTM-Modellen.
Typische Komponenten eines LLM (vereinfacht):
- Tokenisierung: Zerlegung des Eingabetexts in
Tokens (Wörter, Subwörter oder Zeichen) sowie deren Umwandlung in
IDs.
- Embeddings: Zuordnung jeder Token-ID zu einem
Vektor in einem hochdimensionalen Raum, der semantische Ähnlichkeiten
abbildet.
- Mehrere Transformer-Schichten: Jede Schicht
enthält normalerweise Self-Attention und Feedforward-Netze; mit
zunehmender Tiefe werden abstraktere Muster und Konzepte repräsentiert.
- Output-Projektion: Transformation des letzten
Hidden-States in eine Wahrscheinlichkeitsverteilung über das Vokabular
(Softmax-Schicht).
Self-Attention berechnet für jedes Token, wie stark
es auf andere Tokens in der Sequenz achten soll, um seine eigene
Repräsentation zu verbessern.
Dadurch können Abhängigkeiten wie Anaphern
(er, sie), lange Kausal- oder Argumentationsketten und
syntaktische Strukturen sehr flexibel abgebildet werden.
Trainingsprozess: Vortraining und Feinabstimmung
Der Lebenszyklus eines LLM lässt sich grob in zwei
Phasen einteilen: Foundation-Vortraining und nachgelagerte Anpassung
(Fine-Tuning, Instruction Tuning, RLHF usw.).
Foundation-Vortraining
Im Vortraining wird das Modell auf sehr
großen, weitgehend unstrukturierten Textkorpora trainiert, etwa aus
Webseiten, Büchern, Foren und Code-Repos.
Typisch sind Self-Supervised-Lernaufgaben wie:
nächstes Token vorhersagen (autoregressiv), maskierte Tokens
rekonstruieren (BERT-artige Modelle).
Wichtige Schritte:
- Datenaufbereitung: Sammlung, Bereinigung,
Deduplizierung, Filterung (z.B. nach Sprache, Qualität, toxischen
Inhalten). Tokenisierung und numerische Darstellung (Token-IDs).
- Iteratives Training mit einer Verlustfunktion (z.B.
Cross-Entropy), die misst, wie sehr die Vorhersage des Modells vom
tatsächlichen nächsten Token abweicht.
- Optimierung der Parameter über viele Epochen mit
verteiltem Training auf GPU/TPU-Clustern.
- Das Ergebnis ist ein Foundation Model, das
breite sprachliche Muster (Grammatik, Semantik, einfache Weltfakten)
verallgemeinert hat, aber noch nicht zwingend interaktiv nutzbar oder sicher
genug ist.
Feinabstimmung und Alignment
Nach dem Vortraining wird das Modell weiter
angepasst, um bestimmte Nutzungsszenarien zu unterstützen und Risiken zu
reduzieren.
Wichtige Verfahren:
- Supervised Fine-Tuning (SFT): Training auf
kuratierten Input-Output-Beispielen (z.B. Frage-Antwort-Paare,
Code-Lösungen, Dialoge), um gewünschtes Verhalten zu verstärken.
- Instruction Tuning: Speziell strukturierte
Beispiele, bei denen natürliche Sprachinstruktionen zu gewünschten
Antworten führen, sodass das Modell Instruktionen versteht.
- Reinforcement Learning from Human Feedback
(RLHF): Menschen bewerten Modellantworten; ein Rewards-Modell lernt diese
Präferenzen, und das LLM wird darauf mit Reinforcement Learning
abgestimmt.
Ziel ist es, das rohe Sprachmodell in einen nutzbaren
Assistenten zu verwandeln, der Anweisungen befolgt, hilfreiche Antworten gibt
und Richtlinien beachtet.
Inferenz: Wie Textgenerierung abläuft
Bei der Nutzung eines LLM (Inference) wird der Eingabetext
zunächst tokenisiert und durch die Embedding- und Transformer- schichten
geleitet, um für jedes Positionstoken eine interne Repräsentation zu
berechnen.
Am Ende entsteht eine Wahrscheinlichkeitsverteilung
über das nächste Token, aus der nach bestimmten Sampling-Strategien
gewählt wird.
Übliche Strategien:
Greedy Decoding: Immer das wahrscheinlichste Token
wählen; führt oft zu deterministischen, aber manchmal eintönigen
und repetitiven Texten.
Temperature-Sampling: Adjustierung der Verteilung;
höhere Temperatur verteilt Wahrscheinlichkeit gleichmäßiger
(kreativer, aber risikoreicher), niedrigere macht die Ausgaben
konservativer.
Top-k / Top-p (Nucleus) Sampling: Auswahl nur aus
den wahrscheinlichsten k Tokens oder dem kleinsten Token-Set, das eine
kumulierte Wahrscheinlichkeit p erreicht; balanciert Kohärenz und
Vielfalt.
Der Kontext wird normalerweise als Sequenz von Tokens
(Prompt + ggf. System- und Verlaufsnachrichten) verarbeitet, die Länge ist
durch das Kontextfenster des Modells begrenzt (z.B. einige Tausend bis
Hunderttausende Tokens bei neueren Modellen). |
Typische Fähigkeiten und
Einsatzfelder |
|
LLMs können mit
demselben Kernmodell eine erstaunliche Vielfalt von Sprachaufgaben bearbeiten,
oft ohne explizites Task-spezifisches Training (Zero-Shot), oder
mit wenigen Beispielen im Prompt (Few-Shot).
Häufige Fähigkeiten:
- Textgenerierung,
- Verfassen von Artikeln,
- E-Mails,
- kreativen Texten,
- Codekommentaren.
Zusammenfassung: Verdichtung langer Texte in
Kurzfassungen unterschiedlicher Detailebene.
Übersetzung: Übertragung zwischen
Sprachen, ggf. stil- oder domänenspezifisch.
Klassifikation: Sentiment-Analyse, Themenzuordnung,
Spam-Erkennung und Ähnliches.
Codeunterstützung: Vorschläge,
Vervollständigung und Erklärung von Code in vielen
Programmiersprachen.
Wissensabfrage und Reasoning: Beantworten von
Fragen, Schritt-für-Schritt-Erklärungen (Chain-of-Thought-Prompting),
einfache logische Schlüsse.
Einsatzfelder
Einsatzfelder reichen von Customer Support
über Assistenzsysteme in der Wissensarbeit (z.B. Recherche,
Schreiben, Dateninterpretation) bis hin zu Entwickler-Tools,
Bildungsanwendungen oder domänenspezifischen Copilots in Medizin, Recht,
Industrie usw.
Grenzen und Risiken
Trotz beeindruckender Fähigkeiten haben LLMs
strukturelle Beschränkungen und Risiken, die für fundierte Nutzung
entscheidend sind.
Zentrale Probleme: Halluzinationen: LLMs erzeugen
plausible, aber faktisch falsche Aussagen, weil sie nur
Wahrscheinlichkeitsverteilungen über Tokens modellieren, nicht Wahrheit
oder Beweisbarkeit.
Datenbias und toxische Inhalte: Vorurteile oder
diskriminierende Muster im Training setzen sich in den Ausgaben fort, teils
subtil, teils explizit.
Mangelnde Aktualität: Reine LLM-Modelle
frieren mit ihrem Trainingscutoff ein; ohne Retrieval-Mechanismen
kennen sie neuere Fakten nicht.
Erklärbarkeit: Die internen
Repräsentationen sind schwer interpretierbar; es gibt laufende Forschung
zu mechanistic interpretability, aber wenig praxisreife Werkzeuge.
Darum werden LLMs in vielen produktiven Systemen mit
zusätzlichen Sicherungs- und Kontrollschichten kombiniert, etwa
Retrieval-Augmented Generation (RAG), Moderationsfilter, menschliche Kontrolle
(Human-in-the-Loop) und strenge Evaluationspipelines.
Praktische Nutzung: Vom Prompt zum System
In der Praxis sind LLMs heute häufig nicht
direkt, sondern über Dienste und APIs zugänglich, die das rohe Modell
mit Zusatzfunktionen kombinieren.
Typische Bausteine:
- Prompt-Engineering und -Vorlagen
(Rollenanweisungen, Formatvorgaben, Beispiele).
- Tools/Plugins (z.B. Anbindung an Suchsysteme,
Datenbanken, Unternehmens-Wissensbasen).
- Guardrails (Regelsysteme, die bestimmte Antworten
blockieren oder umleiten).
Für Entwickler und Forscher ist es wichtig,
das statistische Wesen eines LLM im Hinterkopf zu behalten: Es
weiß nichts im menschlichen Sinn, sondern approximiert
komplexe, hochdimensionale Verteilungen über Symbolsequenzen.
Das erklärt sowohl seine Flexibilität als
auch seine Fehlertypen. |
Praktische Nutzung: Vom Prompt zum System
In der Praxis sind LLMs heute häufig nicht direkt,
sondern über Dienste und APIs zugänglich, die das rohe Modell mit
Zusatzfunktionen kombinieren.
Typische Bausteine:
Prompt-Engineering und -Vorlagen (Rollenanweisungen,
Formatvorgaben, Beispiele). Tools/Plugins (z.B. Anbindung an Suchsysteme,
Datenbanken, Unternehmens-Wissensbasen). Guardrails (Regelsysteme, die
bestimmte Antworten blockieren oder umleiten).
Für Entwickler und Forscher ist es wichtig, das
statistische Wesen eines LLM im Hinterkopf zu behalten: Es
weiß nichts im menschlichen Sinn, sondern approximiert
komplexe, hochdimensionale Verteilungen über Symbolsequenzen.
Das erklärt sowohl seine Flexibilität als auch
seine Fehlertypen. |