Transkribus: Kurrentschrift lesen dank Künstlicher Intelligenz

Im Vorjahr meldeten sich zahlreiche Freiwillige beim Wien Museum, um alte Ansichtskarten zu transkribieren. Ihr Aufwand war riesig, denn die alten Handschriften konnten sie teilweise nur schwer lesen, weil sehr klein und/oder auch in Kurrentschrift geschrieben. Das muss nicht mehr sein, heißt es jetzt in der Universität Innsbruck.
Mit Hilfe künstlicher Intelligenz können jetzt dank einer neuen Software handgeschriebene Texte entziffert und für alle lesbar gemacht werden. Die in Innsbruck mitentwickelte Plattform Transkribus macht diese Technologie der Wissenschaftsgemeinde, interessierten Archiven und der breiten Öffentlichkeit zugänglich.
Über 90.000 Nutzerinnen und Nutzer aus aller Welt verwenden die Plattform bereits, um handschriftliche Dokumente lesbar und durchsuchbar zu machen. Eine immer größer werdende Gruppe interessiert sich für ihre Familiengeschichte und begibt sich in Kirchenbüchern, Verträgen oder in historischen Dokumenten auf die Suche nach ihren Vorfahren.

„Die händische Suche in diesen Dokumenten kann eine sehr mühsame Angelegenheit sein", weiß der Germanist Günter Mühlberger. "Durch unsere Technologie wird die Erforschung der Familiengeschichte nun wesentlich erleichtert.“ Mühlberger ist in der Arbeitsgruppe Digitalisierung/Archivierung an der Uni Innsbruck tätig.
Die neue Plattform eröffnet neue Welten, denn in Archiven und Bibliotheken lagern historische Dokumente von großem Wert. Diese Dokumente nehmen viel Platz ein. So füllen zum Beispiel die Dokumente im Staatsarchiv in Wien 350 Regalkilometer. Der Großteil dieser Dokumente liegt nur handschriftlich vor und ist für viele Benutzer nicht mehr lesbar, da sie in Kurrentschrift verfasst sind.
„Hier hilft die Transkribus-Plattform, auf der diese Handschrift automatisiert erkannt und damit für alle lesbar gemacht wird“, sagt Germanist Günter Mühlberger. Die Dokumente werden dadurch auch durchsuchbar. Das erleichtert die Recherche in historischen Beständen enorm, weil auf diese Weise Hunderte oder Tausende Dokumente gleichzeitig nach Familiennamen oder anderen Begriffen durchstöbert werden können.

Und so funktioniert das neue Zauberwerk: Transkribus arbeitet mit neuronalen Netzen. Diese maschinenlernenden Methoden haben den großen Vorteil, dass sie nicht mehr speziell für eine bestimmte Handschrift programmiert werden müssen. „Die Benutzerinnen und Benutzer bringen der Maschine bei, die Schrift zu lesen“, erklärt Günter Mühlberger. „Und eine Maschine ermüdet nicht, das heißt, sie kann auch Tausende, Hundertausende oder Millionen von Seiten automatisiert verarbeiten.“
Auch Hebräisch oder Arabisch
Die verwendete Technologie ist völlig unabhängig von der Sprache und der eigentlichen Schriftart. Transkribus erkennt nicht nur Kurrentschrift oder auch moderne Handschriften, sondern auch mittelalterliche Schriften, aber auch Hebräisch, Arabisch oder indische Schriften. „Und derzeit führen wir gerade Experimente für Chinesisch durch, für altes Chinesisch“, freut sich Mühlberger.
Hier gehts zur Übersetzungsmaschine.
Kommentare