DeepSeek R1, OpenAI RFT, RLVR – und eine Erkenntnis von 1865 über das KI-Training
03.03.2025 26 min
Zusammenfassung & Show Notes
Der Weg nach KAI – Episode 51: DeepSeek R1, OpenAI RFT, RLVR – und eine Erkenntnis von 1865 über das KI-Training
Was passiert, wenn eines der leistungsfähigsten KI-Modelle plötzlich Open Source wird? In dieser Folge analysieren wir die Veröffentlichung von DeepSeek R1, ein KI-Modell, das nicht nur technologisch, sondern auch geopolitisch und wirtschaftlich für Aufsehen sorgt.
Wie unterscheidet es sich von OpenAIs O1? Warum hat es den KI-Wettbewerb und selbst die Aktienmärkte tatsächlich 'erschüttert'? Und welche revolutionären Trainingsmethoden stecken hinter seinem Erfolg?
Außerdem sprechen wir über RLVR (Reinforcement Learning with Verifiable Rewards) – eine alternative Strategie zur Optimierung von KI, die menschliches Feedback weitgehend ersetzt.
Doch auch OpenAI schläft nicht: Mit Reinforcement Fine-Tuning (RFT) erprobt das Unternehmen eine Methode, um spezialisierte KI-Modelle effizienter zu trainieren.