Kultur

Stimme zu ähnlich zu Scarlett Johanssons: OpenAI-Stimme wird pausiert

Der ChatGPT-Entwickler OpenAI arbeitet nach eigenen Angaben daran, eine der Schauspielerin Scarlett Johansson ähnelnde Stimme vorübergehend abzuschalten. "Wir glauben, dass KI-Stimmen nicht absichtlich die unverwechselbare Stimme eines Prominenten nachahmen sollten", erklärte OpenAI am Montag (Ortszeit) in einem Blogbeitrag.

Die fragliche Stimme mit dem Namen "Sky" basiere auf der natürlichen Sprechstimme einer anderen professionellen Schauspielerin und solle nicht wie Johansson klingen. Die Schauspielerin selbst zeigte sich allerdings ob der von ihr wahrgenommen Ähnlichkeit "schockiert".

Stellungnahme des Unternehmens

OpenAI arbeite an einer Möglichkeit, "Sky" zu "pausieren", hieß es im Onlinedienst X, ehemals Twitter. "Wir haben Fragen darüber gehört, wie wir die Stimmen in ChatGPT ausgewählt haben, insbesondere Sky." Das Unternehmen erklärte, mit professionellen Sprechern an synthetischen Stimmen gearbeitet zu haben, die es "Breeze", "Cove", "Ember", "Juniper" und "Sky" nennt.

Anwälte eingeschaltet

Johansson erklärte, "schockiert, verärgert und ungläubig" zu sein, dass der OpenAI-Vorsitzende Sam Altman eine Stimme entwickelt habe, die "meiner so unheimlich ähnlich klang, dass meine engsten Freunde" und Medien "den Unterschied nicht erkennen konnten". Sie erklärte, Altman habe ihr im September angeboten, mit OpenAI zusammenzuarbeiten, was sie jedoch abgelehnt habe. Johansson teilte zudem mit, dass ihre Anwälte zwei Briefe an OpenAI und Sam Altman geschrieben und das Unternehmen zu detaillierten Angaben aufgefordert haben, wie "Sky" erstellt wurde.

Alle Inhalte anzeigen

Sprachassistent an menschliches Verhalten angepasst

OpenAI hatte in der vergangenen Woche eine neue Version von ChatGPT vorgestellt, in welcher der Sprachassistent noch stärker als bisher dem menschlichen Verhalten angepasst ist. Das überarbeitete Tool ist leistungsstärker als vorherige Versionen und verarbeitet wie die Vorgängermodelle Befehle und Vorgaben, die per Stimme, Text oder mit Bildern erteilt werden. Dabei kommt die Kommunikation mit dem Nutzer einem Gespräch zwischen zwei Menschen sehr nahe.