KI gegen Suchmaschine: Wer bei Symptomen besser abschneidet

Ein Stethoskop kommt aus einem Laptop-Bildschirm.
Viele besprechen ihre gesundheitlichen Probleme mit KI-Anwendungen. Warum das oft in eine falsche Richtung führt und worauf man achten sollte.

Anwendungen mit Künstlicher Intelligenz sind für viele mittlerweile die erste Anlaufstelle bei gesundheitlichen Problemen. Allein bei ChatGPT stellen jede Woche weltweit mehr als 230 Millionen Menschen Fragen zu Gesundheit und Wohlbefinden, wie das dahinterstehende Unternehmen OpenAI kürzlich bekannt gab. Anfang des Jahres startete deshalb eine eigene Gesundheitsanwendung, ChatGPT Health, die sich derzeit in einer Testphase befindet. Nutzerinnen und Nutzer können sich etwa Blutwerte und andere medizinische Befunde interpretieren lassen, gesundheitliche Fragen stellen oder sich die Daten ihrer Wellness- und Sport-Apps auswerten lassen. 

Den Besuch beim Arzt ersetzt die KI aber noch lange nicht – wie auch eine aktuelle Studie zeigt. Demnach können die Antworten von Sprachmodellen auf medizinische Fragen zwar die Grundlage für weitere Schritte sein, zum Beispiel einen Arzt oder eine Ärztin aufzusuchen, oder helfen, medizinische Fachausdrücke zu verstehen. Die Antworten der KI sind allerdings nur so gut, wie die Eingaben der Fragesteller selbst. Und diese würden häufig wichtige Informationen weglassen oder Antworten missverstehen, wie die Studienautoren schlussfolgern.

Fallbeispiele mit konkreten Symptomen

In der britischen Untersuchung, die im Fachjournal Nature Medicine erschienen ist, erhielten rund 1.000 Teilnehmende fiktive medizinische Fallbeispiele. Die Teilnehmenden wurden jeweils einem Sprachmodell zugeteilt – entweder GPT-4o von OpenAI, Llama 3 von Meta oder Command R+ von Cohere – oder einer Kontrollgruppe, die auf herkömmlichem Weg recherchierte, zum Beispiel mittels Internetsuche. Im Unterschied zu Suchmaschinen geben Sprachmodelle aktiv maßgeschneiderte Empfehlungen auf der Grundlage von Nutzereingaben. Sie suggerieren durch die Interaktion menschliche Kommunikation, während Suchmaschinen eine Liste von Internetlinks präsentieren, die Nutzerinnen und Nutzer selbstständig erkunden können. 

Die Fallbeispiele in der Studie enthielten detaillierte Angaben zu Symptomen, allgemeinen Lebensumständen und Krankengeschichte. Zusätzlich erstellte ein Ärzteteam eine Liste mit mehreren Verdachtsdiagnosen für jeden Fall. Aufgabe der Teilnehmenden war mithilfe ihres jeweiligen Tools mögliche Verdachtsdiagnosen sowie weitere Handlungsschritte herauszufinden. Das Ergebnis: Die Kontrollgruppe fand mit 1,5-mal höherer Wahrscheinlichkeit eine passende Verdachtsdiagnose als die Sprachmodell-Testgruppen. Allerdings entschieden sich sowohl die Testgruppen als auch die Kontrollgruppe in mehr als der Hälfte der Fälle für den falschen Folgeschritt, wobei alle Gruppen die Dringlichkeit der Situation eher unterschätzten. Die Folgeschritte reichten von Selbstversorgung bis zum Notruf.

Fehler in der Interaktion zwischen Mensch und KI

Es zeigte sich, dass zwar die KI in einigen Fällen korrekte Verdachtsdiagnosen vorgeschlagen hatte, die Teilnehmenden diese aber nicht als Entscheidungsgrundlage für weitere Schritte nutzten. Stellten die Froschenden den Sprachmodellen aber die vollständigen Fallbeispiele zur Verfügung, lieferten sie öfter korrekte Diagnosen und passendere Handlungsschritte. „Im Vergleich zu traditionellen Suchmethoden zur Unterstützung von Menschen zeigen Sprachmodelle noch keinen klaren Vorteil, da Fehler in der Interaktion zwischen Mensch und Sprachmodell nach wie vor ein limitierender Faktor sind“, sagt Iryna Gurevych von der Technischen Universität Darmstadt. 

Ein medizinischer Chatbot müsste mehr können als nur Fragen beantworten, wenn er als erste Kontaktstelle nützlich sein soll, meint die Expertin. „Er sollte die Nutzenden dazu anleiten, vollständige Informationen anzugeben und gegebenenfalls Folgefragen stellen, wenn etwas fehlt. Außerdem sollte er keine definitiven Antworten geben, wenn die beschriebene Situation unklar ist. In der Praxis könnte er insbesondere für risikoarme Ratschläge verwendet werden." Vorausgesetzt sei aber, dass sein Einsatzbereich klar begrenzt ist, er von Expertinnen und Experten getestet wurde und als Hilfsmittel und nicht als Ersatz für Ärztinnen und Ärzte angeboten wird.

Mehr Kompetenzen für KI-Nutzung notwendig

Es brauche zudem mehr Kompetenz im Umgang mit KI-Systemen. „Viele Menschen nutzen Suchmaschinen seit Jahren routiniert. Sie haben aber noch wenig Erfahrung damit, eine KI gezielt zu steuern, sinnvolle Rückfragen zu stellen und die Antworten kritisch zu prüfen“, sagt Anne Reinhardt von der Ludwig-Maximilians-Universität München. Die Modelle würden die Fallbeispiele für sich genommen zwar sehr gut lösen. Aber sobald Nutzer selbst Fragen auf Basis derselben Fälle stellen, breche die Leistung deutlich ein.

Sprachmodelle könnten zwar inhaltlich kompetenter werden, aber wenn Nutzerinnen und Nutzer Symptome unvollständig schildern, falsche Schlussfolgerungen ziehen oder Antworten falsch interpretieren, bleibe ein Risiko bestehen, so Reinhardt. „Ohne adäquate Nutzer-Kompetenz bleibt auch ein hochfunktionales KI-Modell im Gesundheitskontext fehlerbehaftet.“ Zwei Fähigkeiten seien laut der Expertin zentral: die digitale Gesundheitskompetenz – also gesundheitsbezogene Infos online zu finden, zu verstehen und zu bewerten – und die KI-Kompetenz, also zu wissen, wie KI grob funktioniert, welche Grenzen sie hat, und wie man sie gezielt nutzt. „Viele Menschen vertrauen KI-Antworten auf Gesundheitsfragen schnell, weil sie leicht zugänglich sind. Sie klingen auch sprachlich sehr überzeugend – selbst dann, wenn der Inhalt eigentlich medizinisch absolut falsch ist“, betont Reinhardt. 

Kommentare