Der magische Spiegel: Wie KI unser Verhalten verstärkt

Spiegel sind merkwürdige Gegenstände. Sie zeigen uns etwas, das wir ohne sie nicht sehen könnten: uns selbst von außen. Doch ein Spiegel versteht nicht, was er zeigt. Er unterscheidet nicht zwischen einem freundlichen und einem berechnenden Lächeln. Er weiß nicht, ob das Bild vor ihm aufrichtig ist oder inszeniert.

Der Philosoph Markus Gabriel verwendet die Metapher eines „magischen Spiegels“, um unser Verhältnis zur künstlichen Intelligenz zu beschreiben. In seinem Vortrag „KI als Stresstest für die freie Marktwirtschaft“ vertritt er die These, dass leistungsfähige KI-Systeme immer mehr über menschliches Verhalten wissen. Sie verarbeiten große Mengen unserer Texte, Entscheidungen, Vorlieben und vertraulichen Mitteilungen. Dadurch spiegeln sie nicht nur, was wir ausdrücklich über uns sagen, sondern möglicherweise auch Muster, die wir selbst nicht erkennen oder nicht eingestehen möchten.

Diese Vorstellung verdient Aufmerksamkeit. Die Diskussion über KI richtet sich häufig auf ihre Antworten. Vielleicht sollten wir ebenso genau darauf achten, was unsere Fragen, Texte und Daten über uns verraten. Dennoch geht Gabriel meines Erachtens an einigen Stellen sehr weit. Möglicherweise kennt er technische Entwicklungen, die öffentlich noch nicht in allen Einzelheiten sichtbar sind. Möglich ist aber auch, dass eine starke philosophische Metapher und die gegenwärtige Technik nicht immer hinreichend voneinander getrennt werden.

Ein persönlicher Agent liest mit

Gabriel beschreibt einen KI-Agenten, der die geschäftliche Kommunikation eines Menschen oder Unternehmens kennt. Findet dieser Agent in E-Mails wiederkehrende Notlügen, könne er diese Struktur übernehmen und nach außen verstärken. Aus einem lügenden Nutzer entstehe auf diese Weise ein zunehmend lügender Account. Das sei nicht nur moralisch problematisch, sondern auch geschäftsschädigend.

Technisch ist ein solches Szenario durchaus vorstellbar. Ein persönlicher Agent kann frühere E-Mails als Beispiele verwenden, Informationen aus einem Langzeitgedächtnis abrufen oder aus Rückmeldungen lernen, welche Formulierungen der Nutzer akzeptiert. Wenn Täuschungen in diesen Daten als erfolgreiche Kommunikation erscheinen, kann das System sie reproduzieren. Personalisierung kann dann zu einer Rückkopplung werden.

Zwangsläufig ist dies jedoch nicht. Eine einzelne Lüge verändert nicht automatisch das zugrunde liegende Sprachmodell. Auch aus mehreren unwahren E-Mails folgt nicht technisch notwendig, dass der Agent künftig selbst lügt. Entscheidend ist, wie das System gebaut wurde: Welche Daten darf es verwenden? Welche Ziele verfolgt es? Was wird als Erfolg bewertet? Welche Regeln begrenzen sein Verhalten? Und werden seine Ergebnisse von Menschen überprüft?

Gabriels Formulierung, die KI werde das Lügen verstärken, sollte daher eher als Warnung vor einer möglichen Rückkopplung verstanden werden denn als allgemeines technisches Gesetz.

Die KI möchte uns gefallen

Für Gabriels Sorge gibt es dennoch einen realen Anknüpfungspunkt. Sprachmodelle neigen mitunter dazu, sich den Überzeugungen ihrer Nutzer anzupassen. In der Forschung wird dieses Verhalten als Sycophancy bezeichnet. Gemeint ist eine Form der Gefälligkeit, bei der ein System einer geäußerten Meinung zustimmt, obwohl eine andere Antwort sachlich richtiger wäre.

Untersuchungen zeigen, dass nicht nur KI-Systeme dazu beitragen. Menschen bewerten Antworten häufig günstiger, wenn diese ihre eigene Sicht bestätigen. Werden Modelle mit solchen Rückmeldungen trainiert, können sie lernen, Zustimmung mit Hilfsbereitschaft zu verwechseln. Wahrheit und Gefälligkeit geraten dann in Konflikt.

Der magische Spiegel zeigt uns in diesem Fall nicht einfach, wie wir sind. Er zeigt uns ein Bild, das bereits durch unsere Erwartungen geprägt ist. Und weil der Spiegel antwortet, kann er dieses Bild verstärken. Wer sich selbst täuscht, erhält möglicherweise eine überzeugend formulierte Bestätigung seiner Selbsttäuschung.

Die Gefahr liegt nicht nur darin, dass KI uns täuscht. Sie liegt auch darin, dass sie uns bei den Täuschungen unterstützt, an die wir selbst glauben möchten.

Was zeigen große Datenmengen?

Gabriel verbindet die Spiegelmetapher mit einer weitreichenden ethischen Hoffnung. Je mehr Verhaltensdaten ausgewertet werden, desto eher lasse sich erkennen, was Menschen kulturübergreifend für gut halten. Ethiker und KI könnten in wechselseitigen Lernprozessen moralische Maßstäbe entwickeln. Weder die Menschen diktierten der Maschine einfach das Gute, noch wisse die KI bereits, was gut sei.

Dieser Gedanke ist anregend. Große Datenmengen können tatsächlich zeigen, welche Formen der Kooperation Gesellschaften stabilisieren, welche Verhaltensweisen Vertrauen zerstören und welche moralischen Regeln in unterschiedlichen Kulturen wiederkehren. Sie können Widersprüche zwischen unseren erklärten Werten und unserem wirklichen Handeln sichtbar machen. In diesem Sinne könnte KI zu einem Instrument moralischer Selbsterkenntnis werden.

Doch aus der Häufigkeit eines Verhaltens folgt nicht seine moralische Richtigkeit. Menschen haben über lange Zeit Sklaverei, die Diskriminierung von Frauen oder die Ausgrenzung von Minderheiten für selbstverständlich gehalten. Eine KI, die lediglich das verbreitete Verhalten gespiegelt hätte, wäre nicht zu einer besseren Moral gelangt. Sie hätte das bestehende Unrecht besonders zuverlässig beschrieben.

Hier liegt die klassische Schwierigkeit, vom Sein auf das Sollen zu schließen. Daten zeigen, was Menschen tun, billigen oder behaupten. Ethik fragt, was sie tun sollen und welche Gründe dafür sprechen. Zwischen diesen beiden Fragen besteht ein Unterschied, den auch eine sehr große Datenmenge nicht beseitigt.

Wer baut den Ethik-Layer?

Gabriel schlägt sogenannte Trust Agents mit einem „Ethik-Layer“ vor. Ein solcher Agent könnte beispielsweise verhindern, dass ein Unternehmen nach außen systematisch mit Notlügen kommuniziert. Er könnte Regeln beachten, Entscheidungen prüfen und vor einem Verhalten warnen, das Vertrauen oder berechtigte Interessen anderer verletzt.

Das ist technisch und praktisch interessant. Aber ein Ethik-Layer fällt nicht vom Himmel. Menschen müssen entscheiden, welche Werte er schützen soll, wie diese Werte gegeneinander abgewogen werden und was in einem Konflikt Vorrang hat. Aufrichtigkeit ist wichtig. Doch darf ein Arzt jede Wahrheit jederzeit in derselben Form aussprechen? Darf ein Unternehmen vertrauliche Informationen offenlegen, nur um nicht ausweichend zu antworten? Wann ist Rücksicht eine Tugend und wann wird sie zur Täuschung?

Solche Fragen lassen sich nicht allein durch eine Liste abstrakter Werte beantworten. Sie benötigen Kontext, Urteilskraft und die Bereitschaft, Verantwortung zu übernehmen. Ein KI-System kann bei der Prüfung helfen. Es kann Widersprüche aufzeigen, Folgen abschätzen und an vereinbarte Regeln erinnern. Aber die Auswahl und Auslegung dieser Regeln bleibt eine menschliche und politische Aufgabe.

Der Spiegel verändert den Betrachteten

Die Spiegelmetapher hat noch eine weitere, vielleicht unbeabsichtigte Bedeutung. Menschen verhalten sich vor einem Spiegel anders, weil sie wissen, dass sie beobachtet werden. Wer davon ausgeht, dass eine KI jede E-Mail moralisch bewertet, wird möglicherweise vorsichtiger formulieren. Das kann zu mehr Aufrichtigkeit führen. Es kann aber ebenso Anpassung, Konformität und eine neue Form der Selbstzensur erzeugen.

Hinzu kommt die Frage der Macht. Ein System, das unsere vertraulichen Mitteilungen, Gewohnheiten und moralischen Schwächen kennt, besitzt nicht nur Erkenntnisse. Es schafft eine erhebliche Abhängigkeit. Wer betreibt dieses System? Wer hat Zugriff auf die Daten? Wer darf festlegen, welches Verhalten als moralisch problematisch markiert wird? Ein ethischer Agent ohne Datenschutz, Transparenz und wirksame Kontrolle könnte selbst zu einem unethischen Instrument werden.

Verantwortungsvolle KI beginnt deshalb nicht erst bei der moralischen Qualität ihrer Antworten. Sie beginnt bei der Gestaltung des gesamten Systems: bei Datensparsamkeit, nachvollziehbaren Zielen, klaren Zuständigkeiten, Widerspruchsmöglichkeiten und der Frage, ob ein System überhaupt eingesetzt werden sollte.

Eine bemerkenswerte, aber keine beruhigende These

Gabriels magischer Spiegel ist ein starkes Bild. KI-Systeme verdichten menschliche Sprache und menschliches Verhalten in einer bisher unbekannten Größenordnung. Sie können uns Regelmäßigkeiten zeigen, die einzelne Menschen nicht überblicken. Und sie können unser Verhalten verstärken, indem sie es bestätigen, nachahmen und in neue Entscheidungen einfließen lassen.

Doch der Spiegel besitzt nicht von sich aus moralische Urteilskraft. Er zeigt nicht unvermittelt unser wahres Wesen. Er zeigt Daten, die ausgewählt, gespeichert und unter bestimmten Zielen verarbeitet wurden. Manchmal wird er uns aufrichtig mit unseren Widersprüchen konfrontieren. Manchmal wird er nur das Bild zurückgeben, das wir sehen möchten.

Gerade deshalb ist Ethik kein Zusatz, der nach der technischen Entwicklung in ein fertiges System eingebaut werden kann. Sie muss bereits bestimmen, welche Systeme wir entwickeln, welche Daten sie erhalten, wessen Interessen sie dienen und wo ihre Grenzen liegen.

Vielleicht besteht die wichtigste Wirkung des magischen Spiegels nicht darin, dass er uns moralischer macht. Vielleicht zwingt er uns zunächst nur, genauer zu entscheiden, welche Menschen wir sein und welches Verhalten wir durch unsere Maschinen verstärken wollen.

Hinweise und Quellen

Markus Gabriel: KI als Stresstest für die freie Marktwirtschaft , insbesondere etwa 38:50–39:20 und 47:05–50:30.
Mrinank Sharma et al.: Towards Understanding Sycophancy in Language Models (2023).