Let's dive in...
Die Ursprünge der Grossen Sprachmodelle (LLMs) lassen sich bis auf das Jahr 1997 zurückverfolgen, als Hochreiter und Schmidhuber das LSTM (Long Short-Term Memory) Modell einführten. Diese Modelle, ein Teil der Familie der rekurrenten neuronalen Netze (RNNs), zeichnen sich besonders in der Sprachverarbeitung und Textgenerierung aus. Ein entscheidender Wendepunkt in der Entwicklung von LLMs war jedoch die Einführung des Transformer-Modells. Das Transformer-Modell selbst stellt einen innovativen Ansatz in der KI-Architektur dar und wurde ursprünglich von Forschern bei Google Brain entwickelt. Das wegweisende Paper mit dem Titel «Attention Is All You Need», verfasst von Ashish Vaswani und seinen Kollegen im Jahr 2017, präsentierte das Transformer-Modell und legte damit den Grundstein für die Entwicklung moderner Grosser Sprachmodelle wie ChatGPT, Gemini und anderen.
Was macht nun ein Transformer-Modell oder ein LLM generell aus? Es spielt das Spiel «Errate das fehlende Wort» auf einem beeindruckenden Niveau. Das Modell nutzt Wahrscheinlichkeiten, um basierend auf einer Eingabe (z.B. einer Frage) und den umfangreichen Daten, die es gelernt hat, das nächste Wort der Antwort zu erraten. Das Modell ist ebenfalls in der Lage, aus unstrukturierten und nicht gelabelten Daten zu lernen.
Hier geht es zum Artikel: Grundlagen: AI & LLMs entmystifiziert – Einsichten für Entscheidungsträger