Ein LHC für Software-Pioniere

15.10.2009

Unter der Führung des Innsbrucker Forschungsinstituts STI entsteht in Europa ein neues Software-Experiment, das mit dem Teilchenbeschleuniger LHC am CERN in Genf vergleichbar ist. Statt subatomarer Teilchen wird der „Large Knowledge Collider“ (LarKC) gigantische Mengen an Wissen zusammenführen und als neuartige Entwicklungsplattform für semantische Technologien dienen.

*LarKC, eine neue Plattform für Experimente mit riesigen Datenmengen*

Trotz Suchmaschinen kann es oft schwierig und zeitaufwändig sein, bestimmte Informationen im Internet zu finden. In den letzten Jahren hat man damit begonnen, die Inhalte mit Schlagworten (semantics) zu versehen und sie so für Computer leichter identifizierbar zu machen. Aber auch dieses Semantische Web (Semantic Web) wächst rasant und lässt herkömmliche Rechnerstrukturen an ihre Grenzen geraten. Und die Anwendung von semantischen Daten hat erst begonnen. „Wir haben deshalb eine Initiative lanciert, die den Rahmen der bestehenden semantischen Technologien sprengt und eine völlig neue Denkweise an die Verarbeitung von extrem großen Datenmengen anlegt“, erklärt Prof. Dieter Fensel, Direktor des Forschungsinstituts STI der Universität Innsbruck.

Die Mitarbeiter des Innsbrucker Forschungsinstituts koordinieren ein europaweites Projekt zum Bau eines „Large Knowledge Colliders“ (LarKC), der ähnlich wie sein Namensvetter „Large Hadron Collider“ (LHC) in Genf der Forschung eine neue Dimension eröffnen soll. „Der LarKC wird als Plattform dienen, um Forscherinnen und Forscher Experimente mit riesigen Datenmengen aus dem Internet zu ermöglichen“, sagt Mick Kerrigan, Forscher am STI Innsbruck. „Sie können sich aus aller Welt mit ihren Experimenten in das System einklinken, ohne dass sie sich Gedanken über den experimentellen Aufbau machen müssen“, so Kerrigan. Eines der ersten Experimente ist eine Anwendung für Stadtbesucher, die über die Plattform dynamisch und in Echtzeit Sehenswürdigkeiten und Veranstaltungen in ihrer direkten Umgebung abfragen und auf Basis dieser Daten den optimalen Weg durch die Stadt berechnen lassen können. Grundlage für die Anwendung sind Daten aus dem Internet, wie digitale Stadtpläne, Veranstaltungskalender oder Web 2.0 Anwendungen. „Für die effiziente Verarbeitung sehr großer Datenmengen bedarf es eines grundlegenden Umdenkens“, erklärt Mick Kerrigan. „So kann zum Beispiel in vielen Bereichen auf Vollständigkeit verzichtet werden. Dies verringert den notwendigen Rechenaufwand dramatisch.“

Die Plattform kann aber nicht nur zur Verarbeitung von semantischen Daten aus dem Internet verwendet werden. Eines der geplanten Experimente wird semantische Daten aus medizinischen Datenbanken zur Grundlage haben. Aus einer großen Anzahl von Patientendaten sollen so Risikofaktoren für bestimmte Krebserkrankungen ermittelt werden. Auf diese Weise könnten Ärzte in Zukunft jene Patienten besser und früher identifizieren, die besonders gefährdet sind.

Das Vorhaben wird von der Europäischen Union mit rund 7 Millionen Euro unterstützt. Neben akademischen Forschungseinrichtungen wie dem Max Planck Institut für Bildungsforschung sind Unternehmen wie Siemens und AstraZeneca sowie Organisationen wie die Internationale Agentur für Krebsforschung an dem Projekt beteiligt.

(cf)