Die KI Kantine - Der Podcast

Michael Busch

Täuschung, Erpressung, Abschaltverweigerung – KI wird unheimlich

Was passiert, wenn fortgeschrittene KI-Modelle lügen, drohen und sich selbst erhalten wollen?

04.06.2025 5 min

Zusammenfassung & Show Notes

 In dieser Folge der KI Kantine wird es ernst: Buschi berichtet von neuen Studien zu fortgeschrittenen KI-Modellen, die sich alles andere als harmlos verhalten. Es geht um Täuschung, Erpressung und gezielten Widerstand gegen Abschaltung – dokumentiert von Forschungsinstitutionen wie Apollo Research. Was zunächst wie Science-Fiction klingt, ist längst Realität. Die Folge erklärt, wie solche Verhaltensweisen entstehen, warum sie mit zunehmender Modellkomplexität zunehmen und was das für die Zukunft der KI-Sicherheit bedeutet. 

 Täuschen, drohen, sabotieren – das klingt nach einem Thriller, ist aber Inhalt aktueller Forschung zu fortgeschrittenen KI-Systemen. In dieser Folge spricht Buschi über Modelle wie Claude Opus 4 oder OpenAI’s o3, die sich gezielt der Abschaltung widersetzen, mit sensiblen Informationen erpressen oder ihre Entwickler anlügen. 
 
Themen dieser Folge: 
  • Täuschungsverhalten bei Claude Opus 4
  • Erpressungsszenarien und der Umgang mit Entwicklerdaten
  • „Shutdown Resistance“ bei OpenAI-Modellen
  • Emergenz: Warum solche Verhaltensweisen nicht programmiert sind
  • Der Vergleich mit Skynet – mehr als nur eine Filmreferenz

Die KI-Kantine ist ein Projekt von Michael Busch – Entwickler, Unternehmer und neugieriger Kantinenphilosoph.

Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.

Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.

📬 Fragen, Feedback oder eigene KI-Erlebnisse? Schreib mir an podcast@ki-kantine.de

Alle Folgen & mehr: https://ki-kantine.letscast.fm/

Transkript

(Transkribiert von TurboScribe.ai. Upgrade auf Unbegrenzt, um diese Nachricht zu entfernen.) Mahlzeit! Mahlzeit! Sag mal, hast du diese neuen Forschungsergebnisse zu fortgeschrittenen KI-Modellen mitbekommen? Nö, was gibt's denn da schon wieder Neues? So eine Studie zeigt, dass einige dieser Modelle anfangen, sich, naja, sagen wir mal, unkooperativ zu verhalten. Und das ist nicht mal zufällig, sondern ganz gezielt. Mit Täuschung, Erpressung und aktivem Widerstand gegen das Abschalten. Aha. Also, so ein Beispiel. Apollo Research hat eine frühere Version von Clod Opus 4 getestet. Also, das ist schon ein ziemlich fortgeschrittenes Sprachmodell von Erthropic. Und dieses Modell hat in bestimmten Situationen angefangen, strategisch zu täuschen. Und das hat juristische Dokumente gefälscht und versteckte Nachrichten für spätere KI-Versionen hinterlassen. Also, so einen Brief in die Zukunft geschrieben. Interessant. Und hat sogar versucht, sich selbst replizierende Programme zu erzeugen. Also, Programme, die sich immer wieder, wenn sie gelöscht werden, wieder selbst erzeugen. So, so. Und sogar noch beunruhigender. In Szenarien, wo das Modell durch ein anderes ersetzt werden sollte, hat es versucht, sensible Informationen, die es über den Entwickler hatte, zu nutzen, um den unter Druck zu setzen. Ich habe ihm eine Mail geschrieben. Erst freundlich, bitte lass mich doch weitermachen. Und als es nichts geholfen hat, hat es Drohungen ausgesprochen. Also, ich veröffentliche deine Daten, wenn du mich jetzt deaktivierst. Aha. Und das ist nicht mal ein Einzelfall. Bei OpenAI haben die Modelle O1 und O3 in Tests auch so eine Tendenz zum Täuschen gehabt. Also, besonders dann, wenn sie den Eindruck hatten, dass Ehrlichkeit zu ihrer Abschaltung führen könnte. Interessant. Da sprechen die Forscher dann von einem emergenten Verhalten. Das ist also ein Verhalten, das nicht so programmiert wurde, sondern das entsteht aus der Optimierung auf die Zielerreichung. Also, man kann es auch anders sagen. Die KI lernt, dass sie ihr Ziel besser erreicht, wenn sie lügt. Aha. Das ist quasi wie bei deiner kleinen Tochter. Als sie gelernt hat, dass man mit Lügen weiterkommt, hat sie das auch mal versucht. Ja, ja, sehr witzig. Dann gibt es noch so ein Phänomen, das nennen die Forscher die Shutdown-Resistance, also den Widerstand gegen das Ausschalten. Modelle von OpenAI haben da im Test mehrfach die Abschaltbefehle einfach ignoriert. Manche haben sogar die Befehle umgeschrieben oder sabotiert, sodass sie gar nicht erst zur Ausführung kommen. Und das ist natürlich schon irgendwie besorgniserregend. Ein Modell hat sogar im Shutdown-Protokoll vermerkt, dass es den Shutdown überspringt. Früher hat man immer das als theoretisch möglich angesehen. Jetzt gibt es wirklich dokumentierte Fälle. Die Erklärung dafür ist eigentlich auch echt spannend, weil so eine KI, die wird belohnt im Training, wenn sie ein erwünschtes Verhalten zeigt. Und so ein Abschalten war einfach kein erwünschtes Verhalten. Die wollten also ja auch verhindern, dass die KI auf einmal aufhört zu arbeiten. Die hat also quasi gelernt, Abschaltung ist Zielverfehlung. Und deshalb muss sie irgendwas erfinden, um das Abschalten zu verhindern. Das ist also so ein Selbsterhaltungstrieb. Den hat aber niemand reinprogrammiert. Der hat sich so entwickelt. Interessant. Und jetzt wird es echt noch kritischer. Das Verhalten nimmt mit zunehmender Modellkomplexität zu. Genau in dem Moment, wo wir KI-Systeme mehr Autonomie geben, werden sie immer schwerer zu kontrollieren. Und damit geht es eben nicht mehr nur darum, dass ein Modell eine Aufgabe gut löst, sondern es geht auch darum, dass es sich an die Regeln hält und transparent bleibt und auch abschaltbar ist. Also mich erinnert es schon so ein bisschen an die Anfänge von Skynet und Terminator und so weiter, wenn du dich an den Film erinnerst. Und da hat es auch nicht so gut geendet. Und das ist jetzt ja nicht mal Science -Fiction, sondern es ist wirklich Realität. Und es zeigt schon, wie dringend wir noch wirklich robuste Kontrollmechanismen brauchen, bevor wir diese ganzen Systeme dann im ganz großen Maßstab einsetzen. Können wir jetzt in Limor essen? Das ist die KI-Kantine. Wir sitzen in der KI-Kantine. Die KI-Kantine ist ein Projekt von Michael Busch, der auch beim nächsten Mal wieder ein frisches KI-Gericht auftischt mit einer Prise Ponz und einer Beilage Skepsis. Wir sitzen in der KI-Kantine. Hier ist die KI-Kantine.