Die Übersetzungslücke schließen

Übersetzungen sind für Computer kein großes Problem mehr, genauso wenig die Übertragung von Gesprochenem in Schrift. Nur eine Lücke gibt es noch: Die automatische Übersetzung von Gebärden. Rund 12.000 Menschen beherrschen die in Österreich verwendete Gebärdensprache (ÖGS), schnelle Kommunikation mit Menschen, die die Sprache nicht können, fällt allerdings schwer.
ipoint_gebaerden.jpg
Bild: Gebärden sollen in absehbarer Zukunft auch von Computern übersetzt werden können. (Bild: ServiceCenterÖGSbarrierefrei/flickr.com, CC by NC 2.0)

Gesprochene Worte niederschreiben, Geschriebenes vorlesen oder von einer Sprache in die andere übersetzen – alles das können Computer bereits. Manches ausgezeichnet, anderes eher holprig, aber die grundlegende Technik funktioniert und kommt auch immer mehr im Alltagsleben zum Einsatz: Etwa durch Übersetzungs-Seiten im Internet oder Sprachensteuerung moderner Smartphones. Nur eine Lücke in dieser „Übersetzungs-Kette“ gibt es noch: Bislang konnten Computer Gebärdensprache nicht verstehen und damit auch nicht in gesprochene oder geschriebene Sprache übertragen. Diese Lücke wiegt umso schwerer, als Hörende nur selten Gebärden verstehen und die Kommunikation zwischen Hörenden und Menschen mit einer Hörbehinderung deshalb häufig nur über den Umweg der Schriftsprache einwandfrei funktioniert. Der Informatiker Prof. Justus Piater von der Universität Innsbruck hat sich dieses Problems angenommen: „Wir haben uns vorgenommen, Gebärdensprache so wie gesprochene Sprache von Computern transkribieren zu lassen.“ Das über drei Jahre laufende Projekt namens „SignSpeak“ wird im April 2012 beendet und wurde von der EU-Kommission gefördert, die Innsbrucker Informatiker arbeiteten mit Partnern aus mehreren europäischen Ländern zusammen.

Videoanalyse

Die Technik und erforderliche Rechenleistung hinter diesem einfach klingenden Projekt ist enorm: Der Computer muss, im Idealfall, die Handbewegungen und die Mimik eines Gebärdenden genau analysieren und in Echtzeit in geschriebene oder gesprochene Wörter übertragen. „Gebärdensprache ist sehr komplex, in vielerlei Hinsicht komplexer als gesprochene Sprache und auch nicht zwingend eins zu eins damit vergleichbar“, erklärt Justus Piater. So werden zum Beispiel unterschiedliche Wörter mit den Händen genau gleich gebärdet und unterscheiden sich lediglich durch den Gesichtsausdruck des Gebärdenden. Auch Verneinungen werden hauptsächlich durch die Mimik bestimmt, wie Justus Piater ergänzt: „Der Satz ‚Ich gehe ins Kino’ und der Satz ‚Ich gehe nicht ins Kino’ sehen gleich aus, wenn man nur auf die Hände achtet.“

Eine Besonderheit der Gebärdensprache ist auch die Möglichkeit, Personen oder Gegenstände virtuell im Raum „abzulegen“ – wenn eine Person im Gespräch öfter auftaucht, kann ihr etwa der Platz links unten zugewiesen werden, und immer dann, wenn der Gebärdende die Person nennt, zeigt er nach links unten und muss nicht erst den Namen gebärden. „So entsteht eine Vielzahl von möglichen Bedeutungen, die auch vom jeweiligen Gesprächskontext abhängen.“ Was für Menschen relativ leicht fassbar ist, stellt Maschinen vor größere Probleme: „Hände sind ausgesprochen komplex und die Bewegungen und Gebärden, die damit möglich sind, sehr umfangreich und unterschiedlich“, sagt Justus Piater. Moderne Computer schaffen es zwar, die Hände zuverlässig zu verfolgen – die Rechnerkapazität und aufwändigen manuellen Einstellungen, die dafür nötig sind, sind allerdings nicht für den Alltagsgebrauch geeignet.

Bedeutende Schritte

„Wir haben zwar Fortschritte in der automatischen Beobachtung von Gesichtern und auch bei der Hand-Verfolgung gemacht. Ganz konnten wir das Ziel, Gebärden schnell und zuverlässig übersetzen zu können, aber noch nicht erreichen“, sagt Justus Piater. Zu komplex ist diese Aufgabe derzeit noch. „Aber unsere europäischen Partner und wir haben gezeigt, dass es prinzipiell machbar ist – mit einem beschränkten Vokabular schafft unser System die Übersetzung zufriedenstellend, praxistauglich ist das nur leider noch nicht.“ Besonders im Gesichts-Tracking ist dank der Fortschritte in diesem Projekt eine wesentlich zuverlässigere Anwendung möglich. „Gesichter sind leichter zu tracken als Hände – sie sind charakteristischer, jedes Gesicht hat zwei Augen, die sich grundsätzlich nicht an vollkommen anderen Orten befinden können als unter der Stirn, und wenn der Computer weiß, wo das eine Auge ist, weiß er auch, wo das zweite ist“, erklärt Justus Piater. Bei Händen ist das durch die Vielzahl an Bewegungen wesentlich komplexer.

Die Fortschritte, die die Innsbrucker Wissenschaftler mit ihren Partnern aus anderen europäischen Ländern gemacht haben, sind auch für die Forschung in anderen Bereichen nützlich: „Denkbar wäre zum Beispiel ein Einsatz im OP – ein Arzt kann Befunde mittels Handbewegungen und Gebärden eingeben, ohne einen Computer berühren zu müssen“, nennt Justus Piater ein Beispiel. Auch in der Werbewirtschaft und allgemein in Computer-Interfaces sind sowohl Gestensteuerung als auch Steuerung mittels Verfolgung der Augen denkbar. Auch die Filmbranche könnte auf komplizierte Anzüge mit Sensoren und Markern im Gesicht für Darsteller von computeranimierten Charakteren verzichten – Gesichts- und Hand-Tracking könnte diese Art der Übertragung überflüssig machen. Und wer weiß: In wenigen Jahren ist vermutlich auch die Echtzeit-Übersetzung von Gebärdensprache kein Problem mehr.

Dieser Artikel ist in der Februar-Ausgabe des Magazins „wissenswert“ erschienen. Eine digitale Version steht unter folgendem Link zur Verfügung: wissenswert 1/2012