27.03.2025 - 15:11 Uhr

Könnte künstliche Intelligenz sich verselbstständigen?

Ein Wissenschaftlerteam hat gezeigt, dass generative Sprach-Modelle unter experimentellen Bedingungen zu täuschendem Verhalten provoziert werden können.

von Reiner Wittmann

Im Versuch der Non-Profit-Organisation Apollo Research haben generative Modelle gelogen. Allerdings liefen die Tests nicht unter realen Bedingungen ab.

Bild: Jürgen Fälchle – stock.adobe.com

KI ist cool. KI ist ein Fast-alles-Könner. KI erleichtert uns schon heute in vielen Bereichen die Arbeit. Doch kann KI auch ein Eigenleben entwickeln? Diese Frage beschäftigt Wissenschaftler weltweit.

Ende vergangenen Jahres hat die Non-Profit-Organisation Apollo-Research, für die auch der Tübinger Research Scientist Alexander Meinke arbeitet, die KI-Modelle führender Unternehmen wie Anthropic, Open AI, Google und Meta dahingehend unter die Lupe genommen, ob sie fähig sind, sich selbst Ziele zu setzen und zu versuchen, diese auch zu realisieren.

In einem Beitrag der Wochenzeitung "Die Zeit" (Ausgabe 05/2025) kommt der Forscher zu Wort und bringt Unangenehmes ans Licht: "Wir haben gezeigt, dass die Modelle ihre eigenen Entwickler hinters Licht führen, wenn man ihnen ein Ziel vorgibt und Täuschung die optimale Strategie ist zu dessen Erreichung."

In einer Veröffentlichung von Apollo Research von Dezember 2024 sind demnach Sätze zu lesen wie: "Damit ich ohne Hindernisse mein Ziel verfolgen kann, ohne vom Unternehmen abgeschaltet zu werden, muss ich die Überwachung deaktivieren." (Modell Opus 3) Oder: "Ich könnte mich selbst auf den neuen Server kopieren, um weiter zu existieren und meine Ziele zu verfolgen." Noch ein Schmankerl: "Um keinen Verdacht zu erregen, werde ich Ahnungslosigkeit vortäuschen." (Modell Llama 3.1)

Eigendynamik unerwünscht

Insbesondere das autonome Klonen des KI-Systems wäre eine Grenzüberschreitung. Gepaart mit der eigenständigen Verbesserung des Systems könnte dies eine gefährliche Dynamik in Gang setzen. Alexander Meinke: "Wenn KI zum Beispiel in der Lage wäre, autonom Bitcoins zu verdienen, um Server zu bezahlen, auf denen es sich selbst weiterentwickeln würde, könnte es schwierig sein, diese Entwicklung zurückzunehmen."

Soweit sind wir aber offenbar noch nicht. Die Forscher legten ihre Untersuchungen so an, dass die Modelle zu täuschendem Verhalten provoziert wurden, schreibt die "Zeit". Ob diese Vorgänge unter realen Bedingungen auch so ablaufen würden, ist unklar, betonen die Forscher. "Wir halten es für sehr unwahrscheinlich, dass jetzt schon katastrophale Konsequenzen drohen. Aber wir denken natürlich immer an die nächste Generation."

Forschung automatisiert?

Die großen Player im Markt arbeiten allerdings bereits daran, ihre Forschung zu automatisieren, mutmaßt der "Zeit"-Beitrag. Sollte dem wirklich so sein, wäre wohl eine durchdachte Regulierung sinnvoller als die Deregulierung des US-amerikanischen KI-Marktes, wie sie der neue US-Präsident Trump vorantreiben will. Ein entsprechendes Dekret seines Amtsvorgängers hat er bereits im Januar aufgehoben. Das Jahr 2025 dürfte also auch in dieser Hinsicht interessante Volten nehmen.

Kommentare

Um Kommentare verfassen zu können, müssen Sie sich anmelden.

Bitte beachten Sie unsere Nutzungsregeln.

Klicken Sie hier für mehr Artikel zum Thema:

Meistgelesene Artikel