ICT Gebäude

Building Reliable AI for Multilingual Media Analysis at the University of Innsbruck in collaboration with Eurac Research.

Beyond the Black Box: DIDI Research Project Awarded Funding

Entwicklung zuverlässiger KI für mehrsprachige Medienanalyse

Wir freuen uns, unsere Beteiligung am neu geförderten interdisziplinären Projekt DIDI ("Different groups, different lenses? How Media Framing Shapes Perceptions of Majority and Minority Communities") bekannt zu geben, das von Research Südtirol Alto Adige 2024 finanziert wird. DIDI ist eine Zusammenarbeit zwischen der Universität Innsbruck (TCS) und Eurac Research und untersucht, wie mediales Framing die Wahrnehmung der deutschen, italienischen und ladinischen Sprachgemeinschaften in Südtirol prägt. Wir bringen unsere Expertise in formalen Methoden und natürlicher Sprachverarbeitung ein, um grundlegende Herausforderungen in generativer KI anzugehen.

KI-Verzerrungen und Halluzinationen in mehrsprachigen Kontexten kontrollieren

Da Nachrichtenmedien zunehmend als Trainingsdaten für große Sprachmodelle dienen, werden die Risiken von Halluzinationen (Informationen, die nicht mit den Fakten übereinstimmen) zu kritischen Anliegen. Für kleinere Sprachgemeinschaften mit begrenzten Trainingsdaten werden diese Risiken verstärkt, da ihre kulturellen und sprachlichen Nuancen oft unterrepräsentiert oder falsch dargestellt werden. Unsere Forschung adressiert diese Herausforderungen an der Schnittstelle von formalen Methoden, natürlicher Sprachverarbeitung und mehrsprachiger Kommunikation.

Wir entwickeln computergestützte Ansätze, um zwei Kernprobleme anzugehen: Erstens die Identifizierung und Abschwächung intrinsischer Verzerrungen in LLMs, wenn sie auf Minderheitenkontexte angewendet werden, wo kulturelle und sprachliche Unterrepräsentation zu verzerrten Narrativen führt. Zweitens die Reduzierung von Halluzinationen durch Einschränkungsmechanismen, die Modellausgaben in verifizierten lokalen Wissensbasen verankern. Durch die Kombination von logikbasierten Einschränkungen mit kuratierten regionalen mehrsprachigen Datenbanken wollen wir sicherstellen, dass KI-Systeme Medieninhalte zuverlässig analysieren können, während sie Unterschiede in der Berichterstattung zwischen Sprachgemeinschaften hervorheben und verzerrte oder erfundene Informationen erkennen.

Eine weitere Herausforderung liegt auch in der Anpassung von NLP-Techniken an die ladinische Sprache, für die wir spezialisierte Modelle für Topic Modeling, Sentiment-Analyse und Emotion Mining entwickeln werden. Diese Arbeit unterstützt nicht nur die Ziele des Projekts, sondern schafft auch generalisierbare Methodologien zur Erweiterung moderner Sprachtechnologien auf unterrepräsentierte Sprachgemeinschaften. 

 

Nach oben scrollen