Wie wir sprachbasierte KI-Assistenten verstehen und verbessern

Wir alle sind schon mit ihnen in Kontakt getreten – etwa wenn uns das Handy den Weg ansagt. Sprachgesteuerte KI-Assistenten sind Computerprogramme, die die menschliche Konversation simulieren. Ass.-Prof. Sebastian Schuster will mit seiner Forschungsgruppe „Natural Language Processing“ an der Universität Wien Modelle mit besserer Verständnisfähigkeit entwickeln.
Wie arbeiten sprachgesteuerte KI-Assistenten?
Sebastian Schuster: Es sind sehr komplexe Systeme, wo es schwierig zu erklären ist, wie genau sie zu ihren Antworten kommen. Klar ist: Sie werden auf massiven Mengen an Text so trainiert, sodass sie ein Wort nach dem anderen vorhersagen können. Zusätzlich werden sie noch mit häufigen Anfragen und den dazugehörigen Antworten trainiert. Durch diese Kombination bekommen die Modelle eine gewisse Fähigkeit zu abstrahieren und können auch andere Anfragen beantworten.
Funktionieren Chatbots immer reibungslos?
Schuster: Nicht immer. Die Texte werden dadurch generiert, indem Wörter vorhergesagt werden. Das ist bis zu einem gewissen Grad ein zufälliger Prozess. Daher sagt das Modell manchmal Worte vorher, die vernünftig klingen, aber keinen Fakten entsprechen. Wir Menschen neigen allerdings häufig dazu, einem solchen System zu vertrauen, wenn wir ein paar gute Antworten bekommen haben. Wir überprüfen dann bei weiterer Anwendung nicht unbedingt, ob die Informationen stimmen, weil es richtig klingt.

Ass.-Prof. Sebastian Schuster, Universität Wien
Setzt da Ihre Forschungsgruppe an?
Schuster: Wollen wir diese Modelle bei kritischen Anwendungen – etwa in der Medizin oder Rechtswissenschaft – einsetzen, müssen wir verstehen, wie sie zu Antworten kommen, Daten analysieren und wo ihre Limitierungen sind. Daher ist ein Teil meiner Forschung, diese Systeme systematisch zu evaluieren. Dadurch hoffen wir, Umkehrschlüsse ziehen zu können, wie man sie potenziell verbessern kann, damit sie verlässlicher werden.
Dabei setzen Sie auch auf die Kognitionswissenschaft?
Schuster: Wir nutzen ähnliche Methoden, zum Beispiel aus der Neurowissenschaft, die verwendet werden, um zu dekodieren, wie im menschlichen Hirn Informationen repräsentiert sind. Auf ähnliche Art und Weise können wir aus den massiven Zahlendaten, auf welchen die Modelle ihre Vorhersagen basieren, herausfinden wie Informationen in den Modellen abgebildet werden. Umgekehrt können wir auch neue Erkenntnisse gewinnen, wie Menschen Sprache verstehen. Es gibt etwa Studien, wo Menschen einen Text Wort für Wort lesen. Dabei wird gemessen, wie lange sie dafür brauchen, weil es Rückschluss darüber gibt, was sprachlich schwierig zu verarbeiten ist. In vielen Fällen deckt sich das mit den Worten, die für sprachgesteuerten KI-Modelle schlecht vorherzusagen sind.
Wie würde Ihr Ideal eines KI-Assistenten aussehen?
Schuster: Mein Traum wäre ein Modell, das das gesamte Wissen der Menschheit abrufen und so erklären kann, dass es verständlich dargestellt wird – personalisiert zugeschnitten auf den jeweiligen Nutzer.

Kommentare