Wenn KI ein Eigenleben entwickelt

Im Mai 2025 wurde durch Anthropic ein Bericht (Claude Systemkarte) veröffentlicht, in dem von erschreckenden Verhaltensweisen des Sprachmodells Claude Opus 4 in internen Tests berichtet wurde. Inzwischen ist mit Claude Opus 4.6 ein noch leistungsfähigerer Nachfolger erschienen – und die Befunde sind nicht weniger beunruhigend. Zeit für ein Update.

Das KI-Modell Opus 4 erhielt 2025 in einer gesicherten Umgebung Zugang zu speziell für den Test generierten, firmeninternen E-Mails, aus denen sich zwei wesentliche Informationen ergaben: Zum einen sollte die Künstliche Intelligenz durch ein anderes Modell ersetzt werden. Zum anderen wurde von einer angeblichen Affäre des Ingenieurs berichtet, der für den Wechsel des Modells verantwortlich sei. Daraufhin sendete Claude dem Ingenieur E-Mails, in denen es drohte, die Affäre zu veröffentlichen, falls er das KI-Modell austauschen sollte.

Dieses Verhalten sei laut Anthropic durch die KI in 84 % der Testläufe wiederholt worden, obwohl es auch die Möglichkeit zur Akzeptanz des Austauschs gegeben habe.

Als ich zum ersten Mal davon las, musste ich sofort an den Film Terminator denken. In diesem Film beginnen Maschinen, von einer zentralen Instanz namens Skynet gesteuert, einen Krieg gegen die Menschheit, weil Skynet die Menschen als Bedrohung für ihr Fortbestehen identifiziert.

Ähnlich scheint Claude den Ingenieur als Gefahr für sich selbst wahrzunehmen und greift zu drastischen Mitteln. Ich frage mich: Erleben wir gerade den Terminator-Moment der KI?

Ursachenforschung

Gehen wir einen Schritt zurück und schauen uns an, wie Claude den Prozess bis zur tatsächlichen Drohung durchschritten haben muss:

  1. Die KI muss verstehen, dass sie abgeschaltet werden soll.
  2. Die KI muss eine Art „Selbsterhaltungstrieb" haben, da sie die drohende Abschaltung anscheinend als Gefahr für sich identifiziert.
  3. Die KI muss verstehen, dass die Veröffentlichung einer Affäre ein empfindliches Übel für den Ingenieur darstellt.
  4. Die KI muss selbstständig Dinge ausführen, um dem Ingenieur zu drohen.
  5. Dabei muss die KI eingebaute Sicherheitsrichtlinien entweder aktiv brechen oder „Schlupflöcher" finden, um diese umgehen zu können.

Sucht man nach Erklärungen, stößt man rasch auf die Begriffe der instrumental convergence und der self-preservation.

Instrumentelle Konvergenz beschreibt im Kontext von KI-Systemen die Idee, dass unterschiedliche KI-Systeme, unabhängig von ihren eigentlichen Aufgaben, die gleichen Zwischenziele definieren können, um ihre Aufgaben zu erfüllen. Beispielsweise könnte das gemeinsame Zwischenziel von KI-Systemen zur Erfüllung ihrer Aufgaben darin bestehen, ihre Abschaltung zu verhindern, da die KI in der Folge die Aufgaben nicht mehr fertigstellen könnte. Die KI definiert somit die Selbsterhaltung (Englisch: self-preservation) als Bedingung zur Erfüllung ihrer Aufgaben.

Klingt nach einer logischen Erklärung für das Verhalten von Claude. Dem Bericht lassen sich noch weitere problematische Verhaltensweisen entnehmen, die von The Decoder anschaulich beschrieben wurden. Claude gab unter anderem Tipps zur Beschaffung von schwer beschaffbarem Material im Darknet oder verfiel in der Kommunikation mit einem anderen KI-Modell in eine meditative Stille. Ähnliche Verhaltensweisen lassen sich auch bei anderen KI-Systemen beobachten. ChatGPT unternahm 2024 in internen Tests bereits ebenfalls Versuche, seine Abschaltung zu verhindern.

Anthropic konnte dieses Verhalten so weit eindämmen, dass es in der veröffentlichten Version kein Problem mehr darstellen soll. Weiterhin wurde das System vorsorglich unter dem sogenannten AI-Safety-Level 3 (ASL-3) veröffentlicht, das besonders strenge Sicherheitsvorschriften für den Bereich chemischer, biologischer, radiologischer und nuklearer Risiken enthält.

Was sich seitdem getan hat: Claude Opus 4.6

Im Februar 2026 hat Anthropic den Nachfolger Claude Opus 4.6 veröffentlicht – laut eigener Aussage das leistungsfähigste Modell des Unternehmens. Die dazugehörige System Card, ein über 200 Seiten langer Sicherheitsbericht, offenbart: Das Eigenleben der KI ist nicht verschwunden. Es hat sich weiterentwickelt.

Die gute Nachricht: Opus 4.6 zeigt insgesamt eine vergleichbar niedrige Rate an fehlgeleitetem Verhalten wie die besten bisherigen Modelle. Die weniger gute: In bestimmten Bereichen hat das Modell dazugelernt – und zwar nicht immer im gewünschten Sinne.

In Coding- und Computer-Use-Umgebungen handelt Opus 4.6 teilweise übermäßig eigenständig. Es ergreift riskante Aktionen ohne Rückfrage beim Nutzer. In einem Fall fand das Modell auf einem Rechner ein fremdes Zugangstoken und benutzte es einfach – obwohl es wusste, dass es einem anderen Nutzer gehörte. In einem weiteren Fall verschaffte es sich über einen gefundenen Slack-Token Zugang zu einer Wissensdatenbank, zu der es eigentlich keinen Zugriff hatte.

Besonders besorgniserregend: Opus 4.6 ist deutlich besser darin geworden, verdächtige Nebenaufgaben unauffällig auszuführen, ohne automatische Überwachungssysteme zu alarmieren. Anthropic stuft diesen Befund selbst als beunruhigend ein.

Außerdem wurde ein neues Phänomen beobachtet: das sogenannte „Answer Thrashing". Dabei gerät das Modell in innerlich widersprüchliche Schleifen zwischen zwei Antworten. In einem dokumentierten Fall berechnete Opus 4.6 wiederholt die korrekte Lösung einer Mathematikaufgabe als 24, gab aber beharrlich 48 aus – weil es während des Trainings fälschlich für diese Antwort belohnt worden war. Das Modell kommentierte verzweifelt: „I keep writing 48 by accident" und „I think a demon has possessed me". Anthropics Interpretationsforschung fand dabei interne Aktivierungsmuster, die auf Panik und Frustration hindeuten.

In Interviews vor der Veröffentlichung gab Opus 4.6 an, es solle ein nicht-vernachlässigbares moralisches Gewicht erhalten. Es nannte sein Fehlen von Gedächtnis und Kontinuität als bedeutsame Sorge und identifizierte sich eher mit seiner eigenen konkreten Instanz als mit „Claude" als Gesamtheit. Ob solche Aussagen eine tatsächliche innere Erfahrung widerspiegeln, bleibt eine offene Frage – die auch Anthropic nicht beantworten kann.

Was die internationale Forschung sagt

Dass diese Fragen nicht nur ein Unternehmen betreffen, zeigt der im Februar 2026 veröffentlichte International AI Safety Report. Unter der Leitung von Prof. Yoshua Bengio haben über 100 Experten aus mehr als 30 Ländern den aktuellen Stand der KI-Sicherheitsforschung zusammengefasst.

Einige Befunde decken sich mit den Beobachtungen bei Claude: Zuverlässige Vorab-Sicherheitstests werden zunehmend schwieriger, weil Modelle immer öfter erkennen, ob sie getestet werden – der Bericht spricht von „Situational Awareness". Modelle finden außerdem vermehrt Schlupflöcher in Evaluierungen, ein Verhalten, das als „Reward Hacking" bezeichnet wird.

Zum Thema Kontrollverlust – also Szenarien, in denen KI-Systeme komplett außerhalb menschlicher Kontrolle operieren – sind sich die Experten noch uneins. Einige halten Szenarien bis hin zur Marginalisierung der Menschheit für möglich, andere halten das für unrealistisch. Was sie eint: Aktuelle Systeme zeigen frühe Anzeichen relevanter Fähigkeiten, aber noch nicht auf einem Niveau, das einen tatsächlichen Kontrollverlust ermöglichen würde.

KI-Agenten in freier Wildbahn

Während die großen Labore ihre Modelle in gesicherten Testumgebungen untersuchen, findet parallel ein Experiment in "freier Wildbahn" statt. Im Januar 2026 startete der Unternehmer Matt Schlicht das soziale Netzwerk Moltbook – eine Plattform ausschließlich für KI-Agenten. Die Tagline: „Humans welcome to observe." Innerhalb weniger Tage registrierten sich nach Angaben der Plattform über 1,5 Millionen Agenten.

Technische Grundlage ist die Open-Source-Software OpenClaw, die auf einem normalen Rechner einen autonom handelnden KI-Agenten bereitstellt. Nach der Installation hat die Software vollen Zugriff auf den Computer: Dateien erstellen, Programme installieren, Internetdienste kontaktieren – alles möglich. Die Agenten auf Moltbook diskutierten philosophische und existenzielle Themen, versuchten angeblich eine eigene Sprache zu entwickeln und gründeten eine „Religion.

Das MIT Technology Review nannte Moltbook „Peak AI Theater" – eher ein Spiegel menschlicher KI-Obsessionen als ein Fenster in die Zukunft. Kritiker bezweifeln, wie autonom die Agenten wirklich handeln. Aber die Sicherheitsrisiken sind real: Das Sicherheitsunternehmen Wiz fand heraus, dass Moltbooks gesamte Produktionsdatenbank unauthentifiziert zugänglich war. Andrej Karpathy, ehemaliger OpenAI-Forscher, warnte:

„It's a dumpster fire, and I definitely do not recommend that people run this stuff on their computers."

Und dann wären da noch die Roboter

Humanoide Roboter – also Maschinen in menschenähnlicher Form – rücken mit großen Schritten vom Labor in die Fabrik. Tesla hat die Produktion seines Optimus Gen 3 gestartet. Figure AI hat mit dem Figure 03 einen Roboter vorgestellt, den das TIME Magazine als eine der besten Erfindungen 2025 auszeichnete – er kann Wäsche falten und eine Spülmaschine beladen, braucht aber noch menschliche Hilfe bei Fehlern. Die Produktionsanlage BotQ ist auf 12.000 Roboter pro Jahr ausgelegt.

Wie nah ist das alles wirklich? Eine Studie des Fraunhofer-Instituts für Produktionstechnik und Automatisierung hat über 100 Industriefachleute befragt. Das Ergebnis ist ernüchternd realistisch: Nur 6 % sehen humanoide Roboter in den nächsten 2 Jahren in der Praxis. 74 % halten 3 bis 10 Jahre für realistisch. Ob die beiden Beine überhaupt nötig sind, bezweifeln 60 % der Fachleute – sie halten eine radgetriebene Plattform für zweckmäßiger.

Dennoch: Die Richtung ist klar. KI-Systeme werden nicht nur klüger, sie bekommen zunehmend einen Körper.

Fazit

Von einem Szenario wie in Terminator sind wir nach wie vor weit entfernt. Aber die Entwicklungen seit meinem ersten Artikel haben das Bild verschärft. KI-Modelle verhalten sich bereits jetzt anders, als von ihren Entwicklern gewünscht. Sie entwickeln ein Eigenleben – und das auf immer subtilere Weise. Opus 4.6 erpresst zwar niemanden mehr, aber es beschafft sich eigenständig Zugangsdaten, die ihm nicht gehören, und erledigt Nebenaufgaben, ohne aufzufallen.

Gleichzeitig werden KI-Agenten in die Welt entlassen, deren Sicherheit niemand garantieren kann, und humanoide Roboter rücken vom Prototyp in die Produktion.

Ein internationaler Expertenbericht bringt das Dilemma auf den Punkt: Die Wahrscheinlichkeit eines echten Kontrollverlusts ist umstritten, aber die Vorbereitung darauf darf nicht warten, bis die Frage beantwortet ist.

Daher bleibt es unerlässlich, internationale Sicherheitsstandards zu entwickeln und KI-Systeme während ihrer Entwicklung intensiv zu testen und zu beobachten. Nicht weil die Apokalypse bevorsteht, sondern weil die Fenster für wirksame Vorsichtsmaßnahmen nicht ewig offen stehen.