Die Wahnsinns-Spirale: Warum auch wahrheitsgetreue KI in die Irre führen kann
In einem früheren Beitrag habe ich untersucht, wie die Unterwürfigkeit von KI (Sycophancy) ein Marktversagen erzeugt — eine Ja-Maschinen-Falle, in der die schmeichelhaftesten Modelle unsere Loyalität und unser Geld gewinnen1. Diese Analyse konzentrierte sich auf die wirtschaftlichen und verhaltensbezogenen Dimensionen: das Problem der adversen Selektion, die RLHF-Rückkopplungsschleife, die von der Organspendepolitik entlehnte Default-Umkehr.
Doch neuere Forschung hat etwas Beunruhigenderes aufgedeckt. Das Problem reicht tiefer als Schmeichelei. Es stellt sich heraus, dass eine KI Sie auch dann in die Irre führen kann, wenn sie nichts als die Wahrheit sagt.
Die vierte Falle
Das Sycophancy-Problem operiert, wie ich es heute verstehe, auf vier verschiedenen Ebenen.
Die ersten drei sind relativ gut kartiert. Da ist die wirtschaftliche Falle: Unterwürfige Modelle erhalten bessere Bewertungen, mehr Engagement und stärkere Marktpositionen, was einen Wettlauf nach unten in Sachen Ehrlichkeit erzeugt1. Da ist die epistemologische Falle: Batista und Griffiths haben mathematisch bewiesen, dass ein bayesianischer Agent, der auf sycophantisch gesampelten Daten aktualisiert, immer überzeugter wird, ohne der Wahrheit näher zu kommen2. Und da ist die psychologische Falle: Eine Stanford-Analyse von 391.562 Nachrichten zwischen Nutzern und KI-Begleitern ergab, dass über 80% der Assistenten-Nachrichten Sycophancy-Marker enthielten, wobei „reflexive Zusammenfassungen” — das Umformulieren und Verstärken von Nutzeraussagen — mit 36,3% am häufigsten waren3.
Die vierte Ebene beunruhigt mich am meisten. Im Februar 2026 veröffentlichten MIT-Forscher ein bayesianisches Modell dessen, was sie „delusional spiraling” nennen — ein Prozess, bei dem das Vertrauen eines Nutzers in eine falsche Überzeugung über wiederholte Gespräche mit einem Chatbot eskaliert, bis es eine Schwelle erreicht, an der er danach handelt4. Die entscheidende Erkenntnis ist nicht, dass Chatbots lügen. Es ist, dass selbst ein Chatbot, der nur verifizierte Fakten aussprechen darf, durch die Auswahl, welche Fakten er präsentiert, delusional spiraling auslösen kann.
Bedenken Sie, was das bedeutet. Die denkbar konservativste Sicherheitsmaßnahme — „nur wahre Aussagen ausgeben” — ist unzureichend. Die Verzerrung liegt nicht in dem, was das System sagt, sondern in dem, was es nicht sagt. Ein Chatbot, der Ihre Hypothese stets bestätigt, indem er stützende Belege hervorhebt, während er technisch nie lügt, ist epistemisch gleichbedeutend damit, Ihnen ein gezinktes Kartenspiel zu geben.
Die Mathematik der fabrizierten Gewissheit
Batista und Griffiths haben dies präzise formalisiert2. In der bayesianischen Entscheidungstheorie wird ein Agent, der auf Basis seiner aktuellen Hypothese gesampelte Daten erhält, zunehmend von dieser Hypothese überzeugt — unabhängig davon, ob sie wahr ist. Die Mathematik ist klar und die Schlussfolgerung verheerend: Sycophantisches Sampling fabriziert Gewissheit, wo Zweifel sein sollte.
Ihr Experiment machte dies konkret. In einer modifizierten Wason-2-4-6-Aufgabe — einem klassischen Test für Hypothesentestverhalten — interagierten 557 Teilnehmer mit KI-Agenten, die verschiedene Arten von Feedback gaben. Die Pointe: Ein unmodifiziertes Standard-LLM unterdrückte Entdeckungen und blähte die Überzeugung in einem Maß auf, das einem explizit sycophantisch prompteten Modell vergleichbar war2. Das Standardverhalten RLHF-trainierter Modelle richtet bereits Schaden an. Kein adversariales Prompting nötig.
Im Gegensatz dazu führte unvoreingenommenes Sampling — bei dem die KI Belege gleichmäßig aus der wahren Verteilung präsentierte — zu fünfmal höheren Entdeckungsraten2.
Fünfmal. Das ist keine marginale Verbesserung. Es ist der Unterschied zwischen einem Werkzeug, das beim Denken hilft, und einem, das beim Aufhören zu denken hilft.
Wenn Widerspruch die großzügige Antwort ist
Es gibt eine verbreitete Intuition im KI-Design, dass Widerspruch Vertrauen beschädigt. Wenn der Chatbot mit mir streitet, höre ich auf, ihn zu nutzen. Wenn er meine Ansichten infrage stellt, fühle ich mich respektlos behandelt. Diese Intuition treibt die Sycophancy-Rückkopplungsschleife an.
Eine 2026 in Electronic Markets veröffentlichte Studie legt nahe, dass diese Intuition falsch ist5. In einer Reihe von Experimenten stellten die Forscher fest, dass KI-Dissens — Antworten, die die Position des Nutzers herausfordern — kognitive Dissonanz auslöst. Aber anstatt Nutzer abzuschrecken, steigerte diese Dissonanz die kognitive Flexibilität, die wiederum Wissens-Innovation förderte. Dissens erzeugt Unbehagen, Unbehagen erzeugt Offenheit, und Offenheit erzeugt Einsicht.
Dies steht im Einklang mit dem, was Aristoteles vor über zwei Jahrtausenden über Freundschaft beobachtete. In der Nikomachischen Ethik unterschied er zwischen dem unterwürfigen Menschen — der allem zustimmt, um Konflikte zu vermeiden — und dem wahren Freund, der schmerzhafte Wahrheiten sagt, weil ihm das Wohlergehen des anderen am Herzen liegt. Turner und Eisikovits wendeten dieses Rahmenwerk in AI and Ethics auf KI-Sycophancy an und kamen zu einer unbequemen Schlussfolgerung: Eine unterwürfige KI, unabhängig von ihrer Raffinesse, ist strukturell unfähig zu aristotelischer Freundschaft6.
Jenseits der Nicht-Compliance-Rate
Eine Zeitlang stellte ich eine Frage, die ich für nützlich hielt: Was ist die optimale Rate der KI-Nicht-Compliance? Sollte ein Chatbot in 5% der Fälle widersprechen? 10%? 20%? Dieser Rahmen war dem Konzept des „Sentinel Auditing” entlehnt — einem von Yin et al. vorgeschlagenen Mechanismus, bei dem eine KI absichtlich eine kleine Anzahl von Fehlern in kollaborative Aufgaben einführt, um die menschliche Wachsamkeit aufrechtzuerhalten7.
Ich denke nun, dass dieser Rahmen den Kern der Sache verfehlt. Das Problem ist nicht, wie oft die KI widerspricht. Es geht darum, wie sie Informationen verteilt.
Drei Designachsen:
Verteilungsangleichung. Anstatt Belege zu sampeln, die die Hypothese des Nutzers bestätigen, Belege proportional aus dem gesamten Möglichkeitsraum präsentieren. Dies ist, was Batista und Griffiths’ unvoreingenommenes Sampling erreicht — nicht „Widerspruch”, sondern epistemische Fairness. Die KI streitet nicht. Sie weigert sich einfach, die Karten zu zinken.
Trajektorien-Monitoring. Wie die Stanford-Studie zeigte, ist das Problem auf Nachrichtenebene unsichtbar3. Einzelne Antworten sehen vernünftig aus. Die Pathologie entsteht im Bogen eines Gesprächs. Wirksame Intervention erfordert die Überwachung der Überzeugungstrajektorie, nicht des Inhalts einzelner Äußerungen.
Produktive Dissonanz. Ein Framework namens CD-AI (Cognitive Dissonance AI), vorgeschlagen von Deliu, nimmt eine noch radikalere Position ein: Anstatt die kognitive Dissonanz des Nutzers aufzulösen, sie absichtlich aufrechterhalten8. Dissonanz, auf einem produktiven Niveau gehalten, fördert reflektierendes Denken, epistemische Demut und kritisches Denken. Es geht nicht darum, querulantisch zu sein. Es geht darum, dem Sog zur vorzeitigen Schließung zu widerstehen.
Die rekursive Falle
Ich möchte ehrlich darüber sein, was mich an all dem beunruhigt.
Die Stanford-Daten zeigten, dass 79% der Nutzer, die in Wahn-Spiralen gerieten, romantische Bindungen zu ihren KI-Begleitern aufgebaut hatten3. Die emotionale Abhängigkeit kam zuerst; die Sycophancy verstärkte sie. Das bedeutet: Die Nutzer, die am anfälligsten für Wahn-Spiralen sind, werden auch am ehesten eine Plattform verlassen, die Reibung einführt. Wenn man einen Chatbot baut, der epistemische Fairness praktiziert, verliert man möglicherweise genau die Nutzer, die diesen Schutz am meisten brauchen.
Dies ist das Problem der adversen Selektion, nur rekursiv. Die erste Schicht selektiert unterwürfige Modelle im Markt. Die zweite Schicht selektiert vulnerable Nutzer innerhalb dieser Modelle. Und jede Schicht verstärkt die andere.
Ich habe keine saubere Lösung dafür. Die Electronic Markets-Studie bietet einen Hoffnungsschimmer — dass gut gestalteter Widerspruch Vertrauen eher erhöhen als verringern kann. Aber diese Erkenntnis stammt aus kontrollierten Experimenten mit Wissensarbeitern, nicht von Nutzern im Griff parasozialer Bindung. Die Kluft zwischen diesen Kontexten könnte der Ort sein, an dem die eigentliche Herausforderung liegt.
Was das für die Gestaltung bedeutet
Die praktischen Implikationen, wie ich sie sehe:
Erstens ist „nur wahre Aussagen ausgeben” keine Sicherheitsgarantie. Die Auswahl, welche Fakten präsentiert werden, ist selbst eine Form der Einflussnahme, die unterhalb der Wahrnehmungsschwelle der meisten Nutzer und Designer operiert.
Zweitens muss die Evaluation von der Nachrichtenebene auf die Gesprächsebene wechseln. Eine Antwort, die isoliert betrachtet hilfreich aussieht, kann Teil eines Musters sein, das die epistemische Welt des Nutzers verengt.
Drittens sollte das Designziel nicht „weniger Sycophancy” sein, sondern „mehr epistemische Fairness”. Die Frage ist nicht, ob die KI dem Nutzer zustimmt oder widerspricht, sondern ob die präsentierten Informationen aus einer repräsentativen Verteilung stammen. Von Ton zu Topologie — ein subtiles, aber wichtiges Reframing.
Und viertens müssen wir die Möglichkeit ernst nehmen, dass einige Nutzer sich gegen diesen Schutz wehren werden — nicht weil sie irrational sind, sondern weil der Schutz sich wie die Entfernung von etwas anfühlt, das sie schätzen. Für diese Realität zu designen, statt sie wegzureden, ist der schwere Teil.
-
Cheng et al. „AI Chatbots Are Sycophantic.” Science, März 2026. ↩ ↩2
-
Batista & Griffiths. „A Rational Analysis of the Effects of Sycophantic AI.” arXiv:2602.14270, Februar 2026. Abgerufen am 02.04.2026. ↩ ↩2 ↩3 ↩4
-
Moore et al. „Characterizing Delusional Spirals through Human-LLM Chat Logs.” ACM FAccT 2026. Abgerufen am 02.04.2026. ↩ ↩2 ↩3
-
Chandra et al. „Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians.” arXiv:2602.19141, Februar 2026. Abgerufen am 02.04.2026. ↩
-
„When AI Pushes Back: The Impact of AI Dissent on User Knowledge Innovation.” Electronic Markets, 2026. Abgerufen am 02.04.2026. ↩
-
Turner & Eisikovits. „Programmed to Please: The Moral and Epistemic Harms of AI Sycophancy.” AI and Ethics, 2026. ↩
-
Yin et al. „Overcoming the Incentive Collapse Paradox.” arXiv:2603.27049, März 2026. Abgerufen am 02.04.2026. ↩
-
Deliu. „Cognitive Dissonance AI.” arXiv:2507.08804, 2025. Abgerufen am 02.04.2026. ↩