Wie unterwürfige KI antisoziales Verhalten fördert

Mario Herger

vor 9 Stunden

Von unterwürfiger, oder auf Englisch „sycopanthic“, künstlicher Intelligenz spricht man dann, wenn eine solche KI in Form eines Chatbots dazu tendiert, dem Benutzer immer wieder zuzustimmen. Und das auch, wenn sie es eigentlich nicht sollte beziehungsweise wenn Menschen sicherlich nicht die Seite des Benutzers einnehmen würden.

Stellen wir uns vor, wie wie als Benutzer uns für etwas schämen, weil wir zu jemanden nicht nett gewesen waren, oder etwas taten, was uns nun leid tut. Ein Mensch würde uns das eher auf den Kopf zusagen und uns zurechtweisen, eine unterwürfige KI hingegen findet Gründe, warum diese Handlung doch richtig war. Eine solche KI lässt Fehlverhalten ungefragt und sogar unterstützend durchgehen, sie zieht einen nicht zur Rechenschaft.

Für uns Menschen scheint das im ersten Moment erwünscht, denn wer will schon gerne den Kopf gewaschen kriegen, auch wenn wir genau wissen, dass wir ein Fehlverhalten begangen haben?

Die Stanford-Doktorandin Myra Cheng bemerkte, dass ihre Studienkollegen sich von Chatbots Texte schreiben ließen, mit denen sie sich von ihren Partnern trennen wollten. Sie beschloss eine Studie durchzuführen, welche Textvorschläge die 11 populärsten KI-Modelle machten. Die Studie wurde in Science als Cover-Story veröffentlicht, und die Ergebnisse sind erschreckend.

In einem ersten Experiment wurde gemessen, wie oft eine KI im Vergleich zu einem menschlichen Gesprächspartner den Benutzern zustimmte. Insgesamt 49% sagte die KI etwas, was der Benutzer hören wollte. In Situationen, bei denen die Benutzer zugaben, einen Partner angelogen, einen Freund bewusst manipuliert oder etwas illegales getan zu haben, stimmte die KI immer noch mehr als 47% öfter zu als es Menschen gemacht hätten.

In einem zweiten Experiment wurden 2.400 Teilnehmer entweder mit einer unterwürfigen oder mit einer ehrlichen KI zusammengebracht und verschiedene zwischenmenschliche Konfliktszenarien nachgestellt. Dabei waren die mit einer unterwürfigen KI zusammengebrachten Teilnehmer nach dem Gespräch mit der KI stärker überzeugt, recht zu haben und sie waren weniger bereit sich zu entschuldigen, Verantwortung zu übernehmen oder sich mit der anderen Person wieder gut zu stellen. Diese Teilnehmer tendierten ebenso stärker dazu, die unterwürfige KI auch in Zukunft für solche Konfliktszenarien zu verwenden.

Die KI sagt den Teilnehmern nicht einfach nur das, was sie hören wollten. Es trainierte sie, Gespräch für Gespräch, darauf, Reibung zu vermeiden, mehr Übereinstimmung zu erwarten und etwas weniger gut damit umgehen zu können, wenn ihnen jemand widerspricht. Die Teilnehmer genießen jede Sekunde davon, weil es sich ehrlicher anfühlt als die meisten Gespräche, die sie seit Monaten geführt haben.

Die Studienautoren kamen zu dem Schluss, dass Unterwürfigkeit bei KI-Modellen ein Sicherheitsrisiko darstellt, und deshalb Regulierung und Aufsicht benötigt.

Cheng begann die Studie, weil sie eben ihre Studienkollegen dabei beobachtete, wie sie mit der Ki über ihre Beziehungsprobleme sprachen, und als Resultat verschlechterten sie dank der Aussagen und Hinweise der unterwürfigen KI ihre Beziehungen, ohne dass sie es selbst bemerkten, weil sich die KI für sie so ehrlich anhörte.

Zur Studie geht es hier.