Weil es angeblich für einen Bruchteil des Geldes ähnlich gute oder sogar bessere Ergebnisse liefern kann wie die Konkurrenz aus den USA, stürzten KI-Aktien am Montag ab. Hochreiter spricht von einer „Panikreaktion“ und führt das darauf zurück, dass „die Leute keine Ahnung haben“.
Genauso wie etwa ChatGPT kann Deepseek Fragen beantworten, eigenständig Inhalte erstellen, Informationen präsentieren und Daten analysieren. Die vor Kurzem veröffentlichte jüngste Version der App hatte seine großen US-Konkurrenten zuletzt bei der Zahl der Downloads überholt und die Branche in Aufregung versetzt.
Auf Basismodell zurückgegriffen
Dass das Trainieren von großen KI-Modellen durch die bei Deepseek angewandten Methoden weniger Ressourcen brauche und nur einen Bruchteil koste als vergleichbare US-Modelle, sei jedenfalls ein „völliger Blödsinn“, meint der Wissenschafter unter Verweis auf die Forschungspapiere zu dem chinesischen Modell. Bei Deepseek habe man auf ein bestehendes Basismodell zurückgegriffen und nur die Mathematik verbessert.
Die Kosten für die Entwicklung des Basismodells seien offenbar nicht eingerechnet worden. Dass, wie von Deepseek kolportiert, ein Grundlagenmodell für knapp 6 Mio. Dollar (5,7 Mio. Euro) entwickelt und trainiert werden könne, sei jedenfalls unrealistisch. Um ein solches Modell von Grund auf zu bauen, seien mehrere Hundert Millionen Dollar notwendig: „Daran hat sich nichts geändert", sagt Hochreiter.
"Viele Sachen vereinfacht"
Den Forschungspapieren der chinesischen Forscher zollt Hochreiter Respekt. „Sie haben viele Sachen vereinfacht.“ Die Art und Weise, wie die Hardware zusammengeschaltet wurde, und die Programmierung der Software könne sicherlich dazu beitragen, dass es billiger werde. Das chinesische Modell sei auch kleiner als die großen amerikanischen Konkurrenten. Aber selbst wenn auch Strom und die Arbeitsstunden von Ingenieuren in China günstiger seien, bleibe der Ressourcenaufwand in einer ähnlichen Dimension.
Auch Stefan Neumann, vom WWTF geförderter Assistenzprofessor im Bereich Machine Learning an der TU Wien, geht davon aus, dass in die Basisarbeit in das Modell weit mehr Geld investiert wurde, als angegeben. Allein auf dem Forschungspapier scheinen weit mehr als 50 Namen auf: „Denen müssen sie auch die Gehälter bezahlen“, sagt Neumann.
Die Technik basiere jedenfalls auf Ideen, die es bereits davor gab. Sie zum Funktionieren zu bringen, sei aber eine Leistung. Ob und wie sich die Arbeit der chinesischen Forscher auf die Branche auswirken werde, müsse man abwarten, meint Neumann: „In dem Bereich ist viel Hype drinnen.“
„Sputnik-Moment“
Respekt für die Arbeit der chinesischen Forscher gab es von Branchengrößen. Das Modell sei beeindruckend, besonders wenn man bedenke, was sie für den Preis bieten können, sagte Sam Altman, Chef des ChatGPT-Entwicklers OpenAI.
Der Risikokapitalgeber Marc Andreessen sprach unter Anspielung auf den ersten Satelliten, der von der Sowjetunion in den 1950er-Jahren ins All geschossen wurde, von einem "Sputnik-Moment" für die Branche. Der Sputnik-Satellit hatte damals zu einem Schub in der US-Weltraumforschung geführt.
Die Aufregung in der Branche hat sich am Dienstag wieder weitgehend gelegt. Die Leistungsfähigkeit von DeepSeek sei großartig, aber auch Europa müsse sich nicht verstecken, sagte etwa Christian Klein, Chef des deutschen Softwareanbieters SAP, der in seinen Produkten zahlreiche KI-Modelle einsetzt.
Auch Hochreiter arbeitet mit seiner Firma NXAI an einem KI-Modell. Zum Einsatz kommt dabei eine von ihm mitentwickelte Technologie namens LSTM (steht für: Long Short-Term Memory). Sie gilt als Grundlage für Spracherkennung und wurde etwa bei Apples Siri verwendet. Auch sie soll weit weniger Ressourcen brauchen und wesentlich schneller sein als herkömmliche Modelle.
Hochreiters Firma baut allerdings keine Basismodelle, sondern konzentriert sich auf Anwendungen für die Industrie. Auch weil die Entwicklung von Grundlagenmodellen sehr kostenintensiv und die Konkurrenz groß ist, wie der Forscher sagt: „Der Markt ist zu.“
Kommentare