Große Meetings, Kundengespräche, Interviews, ärztliche Protokolle: Menschen treffen einander und es wird viel geredet. Am Ende ist es meist die Aufgabe einer Person, die Inhalte zu dokumentieren. Das heißt, das gesprochene Wort in ein Textdokument umzuwandeln. Der größte Zeitfresser im beruflichen Alltag schlechthin. Denn die meisten Menschen sprechen mehr als 120 Wörter pro Minute, schreiben aber weniger als 40 Wörter pro Minute.

Künstliche Intelligenz

Sogenannte Spracherkennungssoftware versucht schon lange, uns von dieser Last des Transkribieren zu befreien. Was jedoch zu Beginn mehr schlecht als recht funktionierte. Aber die Technologie zur Spracherkennung hat sich mithilfe künstlicher Intelligenz enorm verbessert. Die marktführenden Anbieter Nuance und Linguatec versprechen eine Genauigkeit von bis zu 99 Prozent ohne Stimmprofiltraining. „Unsere aktuelle Version von Dragon Professional wurde nochmals optimiert, um Akzente noch besser zu verstehen und Stimmen trotz lauten Hintergrundgeräuschen, wie im Großraumbüro, zu erfassen“, erklärt Ed McGuiggan, General Manager von Dragon Professional. Das macht auch den Druck der User zur steten Optimierung deutlich. Und je besser die Aufnahmequalität, sprich das Mikrofon, die Umgebung etc., desto besser funktioniert auch die Software.

Spracherkennung ist nicht nur wesentlich schneller als die Texteingabe per Tastatur, sondern führt auch zu mehr Flexibilität und Mitarbeiterzufriedenheit. Mitarbeiter können frei und ohne Einschränkungen sprechen und zu jeder Zeit – auch mobil – produktiv arbeiten. So konzentrieren sie sich auf ihre Kunden und das Kerngeschäft und nicht auf die Technologie.

Wenig Konkurrenz

Nur wenige Unternehmen haben sich bisher auf die Produktion solcher Programme spezialisiert. Das liegt in erster Linie auch an der schwierigen und teuren Umsetzung der notwendigen Technologie dahinter. Einstiegsprogramme starten bei rund 50 Euro. Diese Software liefert einfache Funktionen, wie das Übertragen vom gesprochenen Wort in ein Dokument. Programme ab 150 Euro bieten eine schnellere Spracherkennung sowie die Möglichkeit, Akzente und Dialekte zu verstehen. Professionelle Lösungen für das Unternehmen können weit über 500 Euro kosten.

Wiener starten durch

Auch drei Österreicher mit Sitz in Berlin und Wien wollen mit ihrem Start-up Tucan.ai nicht nur die Effizienz von Meetings verbessern. IhreTucan-KI hat sich auf Ergebnisprotokolle spezialisiert. Aktuell benötigt die Maschine für die Audiotranskription eines einstündigen Meetings rund acht Minuten – und für die Zusammenfassung danach nur noch wenige weitere Sekunden. „Mit jeder neuen Verarbeitung lernt die KI, individuelle Sprechweisen besser zu verstehen“, so Michael Schramm, Co-Gründer von Tucan.ai. Noch ist die Software in einer Beta-Phase, mit Ende des ersten Quartals 2022 soll die automatisierte Meeting-Summary-Software endgültig marktreif sein.