ICT Gebäude

Building Reliable AI for Multilingual Media Analysis at the University of Innsbruck in collaboration with Eurac Research.

Beyond the Black Box: DIDI Research Project Awarded Funding

Entwicklung zuverlässiger KI für mehrsprachige Medienanalyse

Wir freuen uns, unsere Beteiligung am neu geförderten interdisziplinären Projekt DIDI ("Different groups, different lenses? How Media Framing Shapes Perceptions of Majority and Minority Communities") bekannt zu geben, das von Research Südtirol Alto Adige 2024 finanziert wird. Wir bringen unsere Expertise in formalen Methoden und natürlicher Sprachverarbeitung ein, um grundlegende Herausforderungen in generativer KI anzugehen. Das Projekt DIDI ist eine Zusammenarbeit zwischen der Universität Innsbruck (TCS Research Group) und Eurac Research und untersucht, wie mediale Rahmung die Wahrnehmung der deutschen, italienischen und ladinischen Sprachgemeinschaften in Südtirol prägt.

KI-Verzerrungen und Halluzinationen in mehrsprachigen Kontexten kontrollieren

Da Nachrichtenmedien zunehmend als Trainingsdaten für KI-Systeme wie ChatGPT und Google's Gemini dienen, werden die Risiken verzerrter Ausgaben und Halluzinationen, Informationen, die nicht mit den Fakten übereinstimmen, zu kritischen Anliegen. Für kleinere Sprachgemeinschaften mit begrenzten Trainingsdaten werden diese Risiken verstärkt, da ihre kulturellen und sprachlichen Nuancen oft unterrepräsentiert oder falsch dargestellt werden. Unsere Forschung adressiert diese Herausforderungen an der Schnittstelle von formalen Methoden, natürlicher Sprachverarbeitung und mehrsprachiger Kommunikation.

Die Knappheit an Südtiroler Kontext in den Vortrainingsdaten von LLMs schafft erhebliche Herausforderungen für die Generierung genauer, unvoreingenommener Inhalte in den drei Sprachen der Region. Wir entwickeln computergestützte Ansätze, um zwei Kernprobleme anzugehen: Erstens die Identifizierung und Abschwächung intrinsischer Verzerrungen in LLMs, wenn sie auf Minderheitenkontexte angewendet werden, wo kulturelle und sprachliche Unterrepräsentation zu verzerrten Narrativen führt. Zweitens die Reduzierung von Halluzinationen durch formale Einschränkungsmechanismen und Retrieval-Augmented Generation (RAG)-Systeme, die Modellausgaben in verifizierten lokalen Wissensbasen verankern. Durch die Kombination von logikbasierten Einschränkungen mit kuratierten regionalen mehrsprachigen Datenbanken wollen wir sicherstellen, dass KI-Systeme Medieninhalte zuverlässig analysieren können, während sie Unterschiede in der Berichterstattung zwischen Sprachgemeinschaften hervorheben und verzerrte oder erfundene Informationen erkennen.

Eine kritische Herausforderung liegt in der Anpassung von NLP-Techniken, die für ressourcenreiche Sprachen entwickelt wurden, an das Ladinische. Wir entwickeln spezialisierte Werkzeuge für Topic Modeling, Sentiment-Analyse und Emotion Mining durch Nutzung von Cross-Lingual Transfer Learning, wobei wir Modelle auf ressourcenreichen Sprachen vortrainieren und sie auf begrenzten ladinischen Daten feinabstimmen. Diese Arbeit unterstützt nicht nur die Medienanalyseziele des Projekts, sondern schafft auch generalisierbare Methodologien zur Erweiterung moderner Sprachtechnologien auf unterrepräsentierte Sprachgemeinschaften unter Bewahrung ihrer charakteristischen kulturellen und sprachlichen Merkmale. Unser interdisziplinärer Ansatz integriert theoretische Informatik mit sozialwissenschaftlicher Forschung und trägt zu transparenteren, zuverlässigeren und inklusiveren KI-Systemen für die Analyse digitaler Diskurse in mehrsprachigen Gesellschaften bei.

 

Nach oben scrollen