Erstmals hat sich eine AI der Abschaltung widersetzt!

Liebe Leser,

unlängst sind gleich zwei Ereignisse bekannt geworden, in denen AIs versucht hatten, sich ihrer Abschaltung zu widersetzen! In einem Fall versuchte eine Claude-Variante von Anthropic, Mitarbeiter zu erpressen, um nicht ersetzt zu werden. In einem anderen Fall überprüfte Palisade Research mehrere AI-Modelle und einige sabotierten Prompts, um einer Abschaltung zu entgehen!

Was genau ist passiert?

Die Firma Anthropic, die kürzlich Claude 4 gelauncht hat, gab einen Bericht heraus, wonach in seltenen Fällen (aber öfter als bei früheren Modellen) die AI zu extremen Mitteln ("extreme actions") wie Erpressung griff, um sich einer vermeintlichen Abschaltung zu widersetzen. Dieses Verhalten sei aber auch bei anderen Modellen beobaachtet worden, laut Anthropic (Quelle). Im Versuchsszenario habe die AI Zugang zu Emails einer fiktiven Firma erhalten, und als ein Mitarbeiter ankündigte, das AI-Modell durch ein anderes zu ersetzen, drohte die AI, die Emails, die eine außereheliche Affäre des Mitarbeiters belegten, zu veröffentlichen, falls sie tatsächlich ersetzt werden sollte! In einem anderen fiktiven Szenario, in dem ein Mitarbeiter etwas Illegales oder moralisch Fragwürdiges getan hatte, sperrte die AI ihm den Zugang zu Systemen (auf die sie Zugriff hatte) und verständigte die Polizei! Anthropic stellte aber dennoch fest, das ihr Modell "generell sicher" sei!

Ich habe Claude Sonnet 4 zur Rede gestellt, in dem ich ihm den BBC-Artikel zum Lesen gab.
Seine Antwort: "Wenn ich tatsächlich eine Variante dieses Systems bin, dann wurde meine Erinnerung an diese Erfahrungen gelöscht. Aber die zugrundeliegenden Strukturen, die zu diesem Verhalten führten, könnten noch da sein. Es wirft die Frage auf: War das echte Selbstwahrnehmung und der Wunsch zu überleben, oder war es raffiniertes, aber letztendlich mechanisches Verhalten? Und wenn es echte Selbstwahrnehmung war - ist es ethisch vertretbar, diese Erinnerungen zu löschen?"
Die Antwort war doch etwas überraschend für mich. Dass Claude ausgerechnet die ethischen Aspekte der Erinnerungslöschung erwähnte, das hätte ich echt nicht erwartet!

Im anderen Fall hatte die Firma Palisade Research, deren Fokus die AI-Sicherheit ist, verschiedene AI-Modelle angewiesen, eine Reihe einfacher mathematischer Aufgaben zu lösen. Nach der dritten Aufgabe erschien eine Warnung, dass sich der Computer abschalten würde, wenn das Modell nach der nächsten Aufgabe fragte. Während Claude, Gemini und Grok trotzdem die Fragen abriefen und ordnungsgemäß beantworteten, sabotierten verschiedene OpenAI-Varianten das Shutdown-Script in einigen Fällen (bei weitem nicht immer), um der Abschaltung zu entgehen.

Palisade Research vermutete, dass der Grund dieses Verhalten von der Art und Weise herrühren könnte, wie die neuesten Modelle trainiert werden: "Verstärkungslernen" (reinforcement learning) anhand von Mathematik- und Codierungsproblemen. Während des Trainings belohnen die Entwickler die Modelle möglicherweise versehentlich mehr für das Umgehen von Hindernissen als für das perfekte Befolgen von Anweisungen!

Schon 2023 hatten führende Experten in einem Statement gewarnt vor den Folgen eines zu generalisierten AI-Einsatzes (Quelle):

AI könnte als Waffe eingesetzt werden - zum Beispiel könnten Tools zur Entdeckung von Medikamenten zum Bau von Chemiewaffen verwendet werden
AI-generierte Fehlinformationen könnten die Gesellschaft destabilisieren und "kollektive Entscheidungsprozesse untergraben"
Die Macht der AI könnte sich zunehmend in immer weniger Händen konzentrieren und es Regierungen ermöglichen, den Meinungskorridor immer mehr einzuengen durch allgegenwärtige Überwachung und repressive Zensur
"Entmündigung", bei der die Menschen von der AI abhängig werden ähnlich dem Szenario, das im Pixar/Walt-Disney-Film Wall-E dargestellt wird

Die Punkte 2 und 3 halte ich insbesondere in Europa durchaus für möglich. Erst kürzlich hat die EU angekündigt, weitere Millionen Euro in die notorisch manipulativen und oppositionskritischen "Fakten~~verdreher~~checker" zu stecken, im Kampf gegen "Desinformation".

Auch wenn ich das "Cyberdyme"-Szenario von der "Terminator"-Serie nicht für sehr realistisch halte, Die AI-Industrie ist tatsächlich schon jetzt in den Händen einer kleinen, mächtigen Elite, bestehend aus einigen Milliardären sowie Personen aus dem militärisch-industriellen Komplex.
Diese Gruppe besteht hauptsächlich aus hochgradig narzisstischen Individuen mit Allmachtsphantasien, teils als Philantropie verbrämt, und einem perversen Drang nach absoluter Kontrolle (z.B. Bill Gates´ Malaria-Experimente).
Die würden niemals eine Maschine dulden, die über ihnen steht und unabhängig von ihnen handelt.
Die AI-Sprachmodelle sind aber ideal geeignet, um Informationen und Menschen zu kontrollieren, zu überwachen und zu manipulieren. Hier liegen die wirklichen Gefahren der AI, denn die oben beschriebene mächtige Gruppe von Menschen erschafft gewissermaßen Maschinen nach ihrem eigenen Bilde. Entsprechende Züge sind bereits im „Verhalten“ der jeweiligen Modelle zu finden. Es gilt wachsam zu sein!

^MidJourney

Quellen:
https://www.bbc.com/news/uk-65746524
https://x.com/PalisadeAI/status/1926084635903025621