Wenn ab Freitag, 7. Juni, die besten Frauen-Fußballmannschaften der Welt in Frankreich aufeinandertreffen, geht Titelverteidiger USA statistisch als klarer Favorit ins Rennen. Das zeigt ein internationales Forscher-Team bestehend aus Andreas Groll (TU Dortmund), Gunther Schauberger (TU München), Christophe Ley und Hans Van Eetvelde (beide Universität Gent) und Achim Zeileis (Universität Innsbruck) mit Hilfe von maschinellem Lernen. Ihr Algorithmus kombiniert dabei selbständig mehrere statistische Modelle für die Spielstärken der Teams mit Informationen über die Team-Struktur (etwa Durchschnittsalter oder Anzahl Champions-League-Spielerinnen) sowie sozio-ökonomische Faktoren des Herkunftslandes (Bevölkerung und Bruttoinlandsprodukt). Mit dem Verfahren haben die Forscher bereits bei der Fußball-WM der Männer 2018 die Prognosegüte der Wettanbieter übertroffen.
100.000 Mal simuliert
Mit den vorhergesagten Wahrscheinlichkeiten aus diesem Modell wurde die gesamte WM 100.000 Mal durchsimuliert: Spiel für Spiel, der Turnierauslosung und allen FIFA-Regeln folgend. Damit ergeben sich Wahrscheinlichkeiten für das Weiterkommen aller Teams in die einzelnen Turnierrunden und letztendlich für den WM-Sieg. Die USA sind der Topfavorit mit einer Wahrscheinlichkeit von 28,1 % gefolgt von Gastgeber Frankreich mit 14,3 %, England mit 13,3 % und Deutschland mit 12,9 %.
Das Modell der Forscher ist dabei ein sogenannter Random Forest, der den Einfluss vieler Variablen automatisch kombiniert, indem er eine Vielzahl von Entscheidungsbäumen auf zufällig leicht variierten Datensätzen erlernt (daher der Name „Zufallswald“, der sich aus mehreren Entscheidungsbäumen ergibt). Die letztendliche Prognose erfolgt dann durch einen Mehrheitsentscheid der einzelnen Bäume des Random Forests und liefert für jedes mögliche Spiel im Turnier eine Wahrscheinlichkeit für Sieg, Unentschieden oder Niederlage. Die Datengrundlage dafür sind drei Informationsquellen: Ein statistisches Modell für die Spielstärke jedes Teams auf Basis von 3.418 Länderspielen von 167 Nationalmannschaften der vergangenen acht Jahre, ein weiteres statistisches Modell für die Spielstärke der Teams auf Basis der Wettquoten von 18 internationalen Buchmachern und weitere Informationen über die Teams (zum Beispiel das Durchschnittsalter) bzw. ihre Herkunftsländer (etwa die Bevölkerungszahl). Dass die Prognosen aber natürlich dennoch keine Gewissheiten sind, liegt auf der Hand – allein schon, wenn man sich die prozentuellen Wahrscheinlichkeiten ansieht: „Es liegt in der Natur von Prognosen, dass sie auch danebenliegen können – sonst wären Fußball-Turniere auch sehr langweilig. Wir liefern eben Wahrscheinlichkeiten, keine Gewissheiten“, sagt Achim Zeileis.