Der Weg nach KAI

Michael Berndt
Since 05/2024 59 Episoden

Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2)

20.05.2025 25 min

Zusammenfassung & Show Notes

Der Weg nach KAI – Episode 57: Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2) 

Im zweiten Teil dieser Episode untersuchen wir den Paradigmenwechsel im Deep Learning, bei dem große KI-Modelle entgegen früherer Annahmen tatsächlich zu besserer Generalisierungsfähigkeit führten. Grundlage dieser Entwicklung ist die Transformer-Architektur (seit 2017), deren „Attention“-Mechanismus Sprache im größeren Kontext analysiert.
Große Modelle wie GPT-3 (2020) zeigen bei steigender Parameterzahl überraschende Leistungssteigerungen, erklärt durch das empirisch beobachtete „Double Descent“-Phänomen. Ein verwandter Effekt ist das „Grokking“: KI-Modelle zeigen plötzliches Verständnis nach langen Phasen ohne sichtbare Lernfortschritte.
Ergänzt werden die Beschreibungen durch die Lotterielos-Hypothese: In großen Netzen existieren potenziell sehr leistungsfähige Subnetzwerke, die durch günstige Initialisierung effizient lernen können. Techniken wie Pruning ermöglichen es dann, diese zu extrahieren und die Effizienz zu steigern.
Zuletzt betrachten wir den „Absolute Zero Reasoner“ (AZR), vorgestellt im Mai 2025. Dieses Modell lernt ohne externe Daten durch ein selbstgeneriertes Aufgaben-Lösungs-System in einer codebasierten Umgebung. Erste Ergebnisse zeigen auch die Fähigkeit zur domänenübergreifenden Generalisierung – eine Eigenschaft, die einer künftigen Künstlichen Allgemeinen Intelligenz abverlangt wird.