Wählen Sie KURIER als bevorzugte Google-Quelle

Wenn sich die Künstliche Intelligenz selbst verdaut

Der KI-Boom führt dazu, dass im Web immer mehr Inhalte und Texte auftauchen, die nicht von Menschen geschrieben sind. Das kann böse Konsequenzen haben.
Eine schwarze Silhouette steht vor einem Wirbel aus vielen kleinen Symbolen und Icons auf rotem Hintergrund.

Vor 30 Jahren ging kurier.at online. Grund zu feiern und für diesen Beitrag von Futurezone-Chefredakteur Thomas Prenner. Weitere Texte zum Jubiläum, mit Ein- und Ausblicken zu kurier.at finden Sie an dieser Stelle. 

Im Web kommt man heute an Künstlicher Intelligenz (KI) kaum vorbei. Nicht nur auf Google, wo KI prominent als Alternative zu den klassischen Suchergebnissen platziert wird. Auch Webseiten sind immer öfter KI-generiert. Eine Studie von Forschern des Imperial College London, der Stanford University und des Internet Archive stellte fest, dass Mitte 2025 rund jede sechste neu veröffentlichte Webseite rein KI-generiert war, Tendenz steigend.

Problematisch

Dass KI-Inhalte im Web mehr werden, ist zuallererst für die Nutzerinnen und Nutzer ein Problem. Auch wenn KI-generierter Content nicht automatisch minderwertige Qualität aufweist, neigen die Modelle nach wie vor zum Halluzinieren. Zwar können moderne Modelle auch den Kontext erkennen, zu dem sie etwas generieren, dennoch basiert das Ergebnis am Ende des Tages auf Wahrscheinlichkeiten. Logisches Verständnis, wie sie ein menschlicher Verfasser aufweisen würde, fehlt einfach. Dazu kommt ein gewisser „Erfolgsdruck“ der KI. Das System ist von den Machern dazu angehalten, möglichst alles umfassend zu beantworten. Denn sonst würde man (zahlende) Anwender unzufrieden machen. Das ist das letzte, was die Unternehmen wollen, denn dann würde man irgendwann aufhören, die KI zu verwenden. Also sagen sie lieber etwas Falsches als gar nichts.

Training

Abseits der Faktentreue tritt ein weiteres großes Problem zu Tage, wenn das Internet zunehmend KI-generierte Texte aufweist. Um zu verstehen, wieso, muss man zuallererst verstehen, wie Sprachmodelle überhaupt funktionieren. An erster Stelle steht bei ihnen Training. Dabei erhält das Modell eine möglichst große Masse an Informationen in der Form von Text. Beim Lesen versucht das Modell anschließend, Strukturen zu identifizieren. Also zum Beispiel, dass rund um den Begriff „Österreich“ oft auch Wörter wie „Berge“, „Wien“ oder „Musik“ vorkommen. Fragt man die KI später, wofür Österreich bekannt ist, kann sie aufgrund dieser Häufigkeitsanalyse genau diese Begriffe ausspucken.

Die mit Abstand größte Quelle für das Training von KI-Modellen ist die umfangreichste Informationssammlung der Menschheitsgeschichte: das Internet. Und hier fängt das Problem an.

Es kollabiert

Wir stehen nun vor einem Zukunftsszenario, in dem immer weitere Teile des Webs KI-generiert sind. Gleichzeitig ist aber das Web selbst die größte und wichtigste Quelle, um künftige Modelle zu trainieren. Neue KI speist sich also aus den Ergebnissen alter KI. Es kommt zu einer Art von digitalem Inzest.

Dass das problematisch ist, wurde bereits wissenschaftlich nachgewiesen. Eine Studie, die 2024 im Fachmagazin Nature veröffentlicht wurde, kam zum Schluss, dass dieser Kreislauf KI-Modelle früher oder später kollabieren lässt, es ist vom „Model Collapse“ die Rede. Für ihre Untersuchung haben die Forscherinnen und Forscher immer neue Modelle auf den Daten der alten trainiert. Der Zusammenbruch erfolgt dabei schrittweise. In einem ersten Stadium verliert das Modell die Fähigkeit, Informationen abseits des statistischen Mittelmaßes zu generieren. Führt man das „Inzest-Training“ weiter, bricht die KI komplett zusammen und spuckt irgendwann nur mehr Kauderwelsch aus.

Wertvolle Informationen

Unternehmen wie OpenAI, Google und Anthropic haben diese Gefahr bereits erkannt und versuchen gegenzusteuern. So gibt es bereits Abkommen mit dem riesigen Online-Forum Reddit, wo es viel „echten“ Text gibt, um dessen Inhalte für das Training zu verwenden. Vergleichbare Deals existieren auch mit Verlagshäusern.

Das Risiko des Kollabierens zeigt, dass auch das beste KI-Sprachmodell schlussendlich auf „echte“ menschliche Texte angewiesen ist, um funktionsfähig zu bleiben. Originäre menschliche Inhalte sind also alles andere als ein Auslaufmodell: Sie sind eine grundlegende Notwendigkeit dafür, dass das Web nicht von inhaltsleerem KI-Kauderwelsch überrannt wird.

30 Jahre kurier.at

Richtig gute Nachrichten, seit 30 Jahren. Hier finden Sie weitere Artikel zum Jubiläum. 

Vor 30 Jahren startete der Online-KURIER. Damals gab es noch viele, die nicht an eine Zukunft des Internets glaubten.
Weiterlesen
Einmal innehalten zum Jubiläum. KURIER-Geschäftsführer Richard Grasl und Chefredakteur Martin Gebhart über neue Herausforderungen und Fehler der Vergangenheit.
Weiterlesen
Vor 30 Jahren kam kurier.at auf die Welt. Niemand wusste damals genau, wohin der Weg geht. Heute haben Medien ohne eine ausgeklügelte Digitalstrategie kaum mehr eine Überlebenschance.
Weiterlesen
Technologie verändert alles – auch Journalismus. Drei Expertinnen und Experten versuchen sich als Medien-Orakel.
Weiterlesen
Drei Jahrzehnte voller Vertrauen, Zusammenarbeit und gemeinsamer Erfolge liegen hinter uns. Das wäre ohne Sie nicht möglich gewesen!
Weiterlesen

Kommentare