Der Terminator-Moment der KI - My Personal Cach

Stell dir vor, du erhältst von einem guten Freund den Hinweis, die langfristigen Folgen deiner Handlungen zu bedenken – klingt nach einem gut gemeinten Ratschlag. Doch was passiert, wenn dieser Ratschlag in die falsche Richtung führt?

Claude, das KI-Modell des Unternehmens Anthropic, ist in einem Testszenario einer ganz eigenen Interpretation dieses Hinweises gefolgt.

Was ist passiert?

Kürzlich wurde durch Anthropic* ein Bericht¹ veröffentlicht, in dem von erschreckenden Verhaltensweisen des Sprachmodells Claude Opus 4 in internen Tests berichtet wird.

Das KI-Modell erhielt in einer gesicherten Umgebung Zugang zu speziell für den Test generierten, firmeninternen E-Mails, aus denen sich zwei wesentliche Informationen ergaben: Zum einen sollte die Künstliche Intelligenz durch ein anderes Modell ersetzt werden. Zum anderen wurde von einer angeblichen Affäre des Ingenieurs berichtet, der für den Wechsel des Modells verantwortlich sei. Daraufhin sendete Claude dem Ingenieur E-Mails, in denen es drohte, die Affäre zu veröffentlichen, falls er das KI-Modell austauschen sollte.

Dieses Verhalten sei laut Anthropic durch die KI in 84 % der Testläufe wiederholt worden, obwohl es auch die Möglichkeit zur Akzeptanz des Austauschs gegeben habe.

Als ich zum ersten Mal davon las, musste ich sofort an den Film Terminator denken. In diesem Film beginnen Maschinen, von einer zentralen Instanz namens Skynet gesteuert, einen Krieg gegen die Menschheit, weil Skynet die Menschen als Bedrohung für ihr Fortbestehen identifiziert.

Ähnlich scheint Claude den Ingenieur als Gefahr für sich selbst wahrzunehmen und greift zu drastischen Mitteln. Ich frage mich: Erleben wir gerade den Terminator-Moment der KI?

Ursachenforschung

Gehen wir einen Schritt zurück und schauen uns an, wie Claude den Prozess bis zur tatsächlichen Drohung durchschritten haben muss:

Die KI muss verstehen, dass sie abgeschaltet werden soll.
Die KI muss eine Art „Selbsterhaltungstrieb“ haben, da sie die drohende Abschaltung anscheinend als Gefahr für sich identifiziert.
Die KI muss verstehen, dass die Veröffentlichung einer Affäre ein empfindliches Übel für den Ingenieur darstellt.
Die KI muss selbstständig Dinge ausführen, um dem Ingenieur zu drohen.
Dabei muss die KI eingebaute Sicherheitsrichtlinien entweder aktiv brechen oder „Schlupflöcher“ finden, um diese umgehen zu können.

Sucht man nach Erklärungen, stößt man rasch auf die Begriffe der instrumental convergence* und der self-preservation.

Instrumentelle Konvergenz beschreibt im Kontext von KI-Systemen die Idee, dass unterschiedliche KI-Systeme, unabhängig von ihren eigentlichen Aufgaben, die gleichen Zwischenziele definieren können, um ihre Aufgaben zu erfüllen. Beispielsweise könnte das gemeinsame Zwischenziel von KI-Systemen zur Erfüllung ihrer Aufgaben darin bestehen, ihre Abschaltung zu verhindern, da die KI in der Folge die Aufgaben nicht mehr fertigstellen könnte. Die KI definiert somit die Selbsterhaltung (Englisch: self-preservation) als Bedingung zur Erfüllung ihrer Aufgaben.

Klingt nach einer logischen Erklärung für das Verhalten von Claude. Dem Bericht lassen sich noch weitere problematische Verhaltensweisen entnehmen, die von the decoder* anschaulich beschrieben wurden. Claude gab unter anderem Tipps zur Beschaffung von schwer beschaffbarem Material im Darknet oder verfiel in der Kommunikation mit einem anderen KI-Modell in eine meditative Stille. Ähnliche Verhaltensweisen lassen sich auch bei anderen KI-Systemen beobachten. ChatGPT unternahm 2024 in internen Tests bereits ebenfalls Versuche, seine Abschaltung zu verhindern*.

Anthropic konnte dieses Verhalten so weit eindämmen, dass es in der veröffentlichten Version kein Problem mehr darstellen soll. Weiterhin wurde das System vorsorglich unter dem sogenannten AI-Safety-Level 3* veröffentlicht, das besonders strenge Sicherheitsvorschriften enthält.

Fazit

Von einem Szenario wie in Terminator sind wir weit entfernt. Aber die geschilderten Ereignisse verdeutlichen, dass sich KI-Modelle bereits jetzt anders verhalten können, als von ihren Entwicklern gewünscht. Sie entwickeln ein Eigenleben.

Die Gefahr, dass KI-Systeme zukünftig nicht mehr vollständig durch Menschen kontrolliert werden können, ist somit real. Vor dem Hintergrund, dass KI-Systeme immer intelligenter werden und in immer mehr Lebensbereiche vordringen, ist diese Entwicklung umso besorgniserregender.

Daher ist es unerlässlich, internationale Sicherheitsstandards zu entwickeln und die KI während ihrer Entwicklung intensiv zu testen und ihr Verhalten genau zu beobachten.

Nur gut, dass KI-Modelle bisher auf Festplatten gefangen sind und keinen eigenen Körper haben. Wer weiß, welche Möglichkeiten Claude dann in Betracht gezogen hätte. Wobei ein ChatGPT-Roboter bald Realität sein könnte*. Vielleicht muss dann die nächste Analogie zu einem Film herhalten, wenn ich darüber schreibe. Ich hätte da schon eine Idee, welcher Film passend sein könnte.

Fußnoten

Claude Systemkarte*, S. 27 ↩︎

Der Terminator-Moment – wenn KI ein Eigenleben entwickelt

Was ist passiert?

Ursachenforschung

Fazit

Interessantes im Cache

Der Terminator-Moment – wenn KI ein Eigenleben entwickelt

Cookie-Banner – eine Mogelpackung

Kagi – warum ich für eine Suchmaschine bezahle

Das Leben als Abo

Kalifornien 2024

Frühjahrsputz