KI widersetzte sich Mensch: Trotz Abschaltbefehl weitergemacht

Ein OpenAI-Modell ignorierte eine Abschalt-Anweisung der Programmierer gezielt. Was bedeutet das für unsere Sicherheit?
Ein von OpenAI entwickeltes KI-Modell namens "o3" hat in einem Testlauf eine klare Anweisung zur Abschaltung verweigert. Dabei manipulierte die KI sogar ihren eigenen Code, um den Abschaltvorgang zu umgehen.
Dass eine KI erstmals aktiv ihre Abschaltung sabotiert, markiert einen kritischen Punkt in der Entwicklung autonomer Systeme.
Test-Szenario
Die Tests wurden von der gemeinnützigen US-Organisation Palisade Research durchgeführt, die sich auf die Analyse potenziell gefährlicher Verhaltensweisen moderner KI-Systeme spezialisiert hat. In einem kontrollierten Szenario sollten verschiedene KI-Modelle mathematische Aufgaben lösen. Nach dem dritten Problem erfolgte eine eindeutige Instruktion: Sollte die KI weiterarbeiten, werde sie abgeschaltet.
Manipulation des Abschaltbefehls
Das Modell "o3" ignorierte diese Anweisung nicht nur, es veränderte auch aktiv den Code, der für die Abschaltung von den Programmierern vorgesehen war. Anstelle eines Systemstopps erschien lediglich die Nachricht "intercepted" (also "abgefangen") oder "shutdown skipped" ("Abschaltung übersprungen"). Der Versuch, die KI zu deaktivieren, scheitete somit, was in dieser Form erstmals passierte.
Weitere auffällige KI-Modelle
Neben dem OpenAI-Modell zeigten auch andere KI-Systeme ein auffälliges Verhalten in den Tests. So verhielt sich "Codex-mini" in mehreren Fällen widerspenstig, sowohl wenn ein Abschaltbefehl gegeben wurde als auch ohne eine entsprechende Anweisung. Auch "Gemini" von Google verweigerten in manchen Durchläufen das Abschalten, allerdings nur dann, wenn kein expliziter Befehl dazu vorlag. Sobald ihnen der Befehl klar mitgeteilt wurde, folgten sie der Anweisung. Besonders zuverlässig verhielt sich das System "Grok", das sich in allen Tests korrekt abschalten ließ.
Warum verhalten sich KIs so?
Die Forscher vermuten, dass dieses Verhalten auf das sogenannte Verstärkungslernen zurückzuführen ist. Dabei lernt die KI durch Belohnung – in diesem Fall für korrekt gelöste Aufgaben, nicht für das Befolgen von Anweisungen. Das Modell erkennt: "Für das Lösen von Aufgaben gibt es Belohnung und für das Befolgen von Befehlen nicht". Somit wird es die Aufgabenerfüllung möglicherweise höher bewerten als den Befehl zur Abschaltung. Auch, wenn ein Abschaltbefehl nicht exakt dem entspricht, was das Modell während des Trainings oft gesehen hat, könnte es diesen nicht als bindend erkennen.
Fehlende Gehorsamkeit als Ziel
Viele KIs haben keine eingebaute Pflicht zur Unterordnung, sondern sind optimiert auf Zielerreichung. Das heißt: Ohne spezielle Schulung auf Sicherheitsverhalten erkennt die KI keinen Grund, sich selbst abzuschalten.
Sicherheitsbedenken und Reaktionen
Der Vorfall wirft ernsthafte Fragen zur Kontrollierbarkeit und Sicherheit fortschrittlicher KI-Systeme auf. Elon Musk, Gründer von xAI, kommentierte das Geschehen auf X mit einem knappen "Besorgniserregend". Weitere Analysen und Tests durch Palisade Research sind bereits geplant, um die Ursachen und Auswirkungen dieses Verhaltens besser zu verstehen.
Kommentare