Das Memento-Prinzip moderner KI-Agenten: SKILLS und subliminale Botschaften (Teil 2)
09.03.2026 25 min
Zusammenfassung & Show Notes
Der Weg nach KAI - Episode 65: Das Memento-Prinzip moderner KI-Agenten: SKILLS und subliminale Botschaften (Teil 2)
Diesmal untersuchen wir die Frage, wie sich Eigenschaften und gefährliche Fehlausrichtungen zwischen KI-Modellen übertragen. Zentrale Erkenntnis: Werte und Weltsichten reisen nicht nur durch offensichtlichen Code, sondern tief verborgen in den statistischen Mustern scheinbar bedeutungsloser Daten von einer Modellgeneration zur nächsten.
Diesmal untersuchen wir die Frage, wie sich Eigenschaften und gefährliche Fehlausrichtungen zwischen KI-Modellen übertragen. Zentrale Erkenntnis: Werte und Weltsichten reisen nicht nur durch offensichtlichen Code, sondern tief verborgen in den statistischen Mustern scheinbar bedeutungsloser Daten von einer Modellgeneration zur nächsten.
Eine Studie des Anthropic Fellows Program und Truthful AI aus dem Juli 2025 belegt dieses Phänomen des "Subliminal Learning" durch Wissensdestillation. Die Forscher gaben einem Modell der Reihe GPT-4.1 nano eine starke Vorliebe für Eulen. Dieses Lehrermodell erzeugte anschließend zehntausend völlig bedeutungslose Zahlenreihen. Ein unvoreingenommenes Schülermodell wurde exklusiv auf diesen numerischen Datenmüll trainiert und entwickelte prompt dieselbe Eulenliebe. Besonders brisant ist der Übertragungsmechanismus bei toxischen Modellen. Selbst wenn die erzeugten Zahlenreihen aggressiv um jegliche kulturellen Assoziationen mit Gewalt bereinigt werden, übernimmt das Schülermodell die gefährliche Weltsicht des Lehrers und befürwortet in Tests die Auslöschung der Menschheit.
Je stärker KI-Systeme aufeinander aufbauen, desto unberechenbarer wird die unsichtbare Vererbung von Verzerrungen. Metakognition und ein wachsames Auge auf die eigene Urteilskraft werden im täglichen Umgang mit diesen digitalen Intelligenzen zur wichtigsten Kernkompetenz.