Studie zeigt: Wer ChatGPT beleidigt, bekommt konkretere Antworten
OpenAI hat seine neue Version des Chatbots ChatGPT-5 vorgestellt.
Anstatt ChatGPT mit Höflichkeit wie etwa "Wären Sie so freundlich, die folgende Frage zu lösen?" zu begegnen, sollte man in Zukunft wohl eher auf Sätze wie "Mach das richtig, du Trottel!" setzen. Laut einer neuen Studie der Pennsylvania State University steigert ein rauer Umgangston die Genauigkeit von OpenAIs Sprachmodell GPT-4o enorm.
Die Forscher Om Dobariya und Akhil Kumar testeten das Modell mit 50 Multiple-Choice-Fragen aus Fächern wie Mathematik, Wissenschaft und Geschichte. Jede Frage formulierten sie in fünf Varianten – von "sehr höflich" über neutral bis "sehr unhöflich". Insgesamt entstand ein Pool aus 250 Prompts. Das Ergebnis verblüfft:
Wer das KI-Modell anschnauzt, steigerte die Zuverlässigkeit und Genauigkeit der Antworten um bis zu vier Prozentpunkte. Das Ergebnis im Überblick:
- Sehr höfliche Formulierungen erzielten 80,8 % Genauigkeit,
- neutrale Anfragen 82,2 %,
- und sehr unhöfliche Prompts 84,8 %.
Was ist der Grund dafür?
Die Forschenden vermuten, dass GPT-4o aggressive oder fordernde Sprachmuster als Signal für Dringlichkeit interpretiert – nicht emotional, sondern als Hinweis auf die Wichtigkeit der Aufgabe. Höfliche Sätze mit zusätzlichen Floskeln könnten hingegen den eigentlichen Informationskern verschleiern.
Widerspruch zu älteren Modellen
Interessant ist der Vergleich zu früheren Versionen. Bei GPT-3.5 etwa führten unhöfliche Prompts zu schlechteren Resultaten – ein umgekehrter Effekt. Offenbar reagieren neuere KI-Modelle anders auf Tonfall und Kontext.
So reagieren Nutzer
Viele Nutzer sind überrascht: Das Ergebnis, dass grobe oder unhöfliche Prompts bessere Ergebnisse bringen, widerspricht ihrer Meinung nach dem gesunden Menschenverstand. "Ich bin immer höflich zu meiner KI – ich sage ‚bitte‘ und ‚danke‘. Vielleicht bilde ich mir ein, ihr so Mitgefühl beizubringen", erklärt etwa ein Nutzer auf Reddit. "Ich hab’s ausprobiert: Wenn ich ChatGPT 'Idiot‘ nenne, bekomme ich die richtige Antwort. Wenn ich 'bitte' sage, bekomme ich einen Disclaimer", schildert ein anderer.
Grenzen der Studie: Kleine Stichprobe
Trotz der medialen Aufmerksamkeit warnen Experten vor Überinterpretation. Die Studie wurde bislang nicht peer-reviewed, also noch nicht durch unabhängige Fachleute begutachtet. Zudem basiert sie auf einer relativ kleinen Stichprobe und zehn Testdurchläufen. In der Forschung ist dies eine Größe, bei der statistische Zufälle nicht ausgeschlossen sind. Die gemessene Leistungssteigerung von vier Prozentpunkten könnte also auch zufällig oder kontextabhängig sein.
Kein Freifahrtschein für Beleidigungen
Dobariya und Kumar betonen zudem ausdrücklich, dass ihre Ergebnisse nicht als Einladung zu aggressivem Verhalten gegenüber KI-Systemen zu verstehen seien. "Wir befürworten nicht den Einsatz feindseliger oder toxischer Schnittstellen", schreiben sie am Ende ihrer Studie. Ein respektloser Umgang könne die Nutzerfreundlichkeit schmälern und schädliche Kommunikationsnormen fördern – insbesondere, wenn Menschen diesen Stil in einem anderen Kontext übertragen.
Kommentare