Expected Goals - Was ist das denn auf Deutsch?
In diesem Blog nutze ich seit einer Weile Statistiken über 'Expected Goals' und Pass-Visualisierungen zur Illustration der Analysen. Wie funktionieren diese Metriken, und was lässt sich in und aus ihnen lesen?
Expected Goals
Beginnen wir mit expected goals (xG) - oder, für alle, die sich wie Jens Keller fragen, ob es dafür auch einen deutschen Begriff gibt, zu erwartenden Toren. Manchmal liest man auch die Abkürzung ExpG.
Mit diesem Wert, der von den auf Twitter prominenten Analysten 11tegen11 und Michael Caley entwickelt und popularisiert wurde, wird versucht, die Zahl und Qualität der Chancen einer Mannschaft unabhängig von den dabei in einem Spiel tatsächlich erzielten Toren anzugeben - und das besser, als es etwa bloß die Zahl der Schüsse auf und neben das Tor kann.
Die grundlegende Idee dazu ist einfach und natürlich: hat nicht jeder Schuss oder jeder Angriff gleich hohe Erfolgschancen. Soviel ist für alle offensichtlich, die schon einmal ein Fußballspiel gesehen haben. Die Aufgabe der statistischen Modelle, die xG Werte ausgeben, ist nun, die Faktoren zu finden, von denen die Erfolgschancen eines Versuchs abhängen. Diese einfache Idee statistisch aufzuarbeiten ist sinnvoll, um einerseits viele Spiele und Schüsse automatisiert zu vergleichen, andererseits aber auch die eigene Wahrnehmung zu überprüfen.
Schauen wir uns - bevor wir auf die Mechanik des Modells ein wenig näher eingehen - an, wie die Graphiken, die xG angeben, zu lesen sind.
11tegen11 produziert für jedes Spiel zwei Graphiken, die unterschiedliche Aspekte der xG Daten des Spiels zeigen. Der Verlaufsgraph gibt zunächst einen Überblick über die Chancenbilanz und darüber, wie sie sich im Spiel entwickelt hat.
11tegen11's Modell zur Bewertung von Schüssen entsteht so: Eine relativ große Datenmenge (~ 600.000 Schüsse) wird zunächst in 10 Situationen eingeteilt (Schüsse aus dem offenen Spiel, Abschlüsse nach Ecken, nach Kontern etc). Für jede dieser Situationen wird dann überprüft, welche Randbedingungen am meisten beeinflussen, wie oft sie zu Toren führen.
So wird bestimmt, welche Faktoren mit welchem Gewicht in das Modell einfließen und entstehen Erkenntnisse wie diese:
Crosses are bad. -- 11tegen11
Neben dem Ort, von dem abgeschlossen wird, und der Weise, in der das geschieht (Schuss oder Kopfball etc.), fließen in die Berechnung vor allem Informationen ein, die Rückschlüsse auf die spielerische Konstellation erlauben, aus der die Chance hervorgeht. Dazu gehört zum Beispiel, ob dem Schuss ein Dribbling um den Torhüter herum vorausging.
An Faktoren wie diesem (oder der Kategorisierung als 'Großchance') wird deutlich, dass das Modell nicht ohne menschlichen Input auskommt. Weil Daten nicht automatisch erfasst werden, und solche zur Positionierung der Spieler, die nicht am Ball sind, ganz fehlen, sind die Kodierungen, die Beobachter per Hand in Echtzeit für Opta vornehmen, unerlässlich (siehe den Double Pivot Pod vom 23. Februar).
Es gibt übrigens mittlerweile neben Schuss-basierten Modellen wie dem, das hier verwendet wird, auch solche, die versuchen, Angriffe anhand anderer Aktionen zu bewerten, etwa Pässe in Tornähe. Ich beziehe mich auf 11tegen11, weil sein_e Betreiber_in es dankenswerterweise für Union Spiele zuverlässig und schnell verfügbar macht.
Wie informativ ist dieses Modell aber nun? Zu erwartende Tore sind der einzelne Wert, der das Kräfteverhältnis in einem Spiel am besten abbildet. Trotzdem gibt es Situationen, die darin nicht richtig eingeholt werden können. Aber über längere Zeit nähren sich die tatsächlichen und zu erwartenden Tore für alle Mannschaften außer die von Barcelona und Lucien Favre an. Deshalb neigen statistikaffine Analysten dazu, es 'Glück' zu nennen, wenn eine Mannschaft eine bessere echte als xG Torbilanz hat. Trotzdem können Vorhersagen noch verbessert werden, wenn andere Statistiken miteinbezogen werden.
Passgraphiken
Die Passgraphiken von 11tegen11 liefern einen Überblick über die spielerischen Muster der Teams. Hier werden Spieler mit umso größeren Punkten dargestellt, je mehr Ballaktionen sie hatten. Ihre Anordnung folgt aus der durchschnittlichen Position ihrer Ballkontakte - eine offensichtlich nicht perfekte Verkürzung dessen, was wirklich stattfindet.
Um die Übersichtlichkeit und Vergleichbarkeit der Graphik zu wahren, beschränkt 11tegen11 die Darstellung auf die ersten ca. 70min, bevor es zu mehr Einwechslungen kommt.
Links
- 11tegen11 hat die Methode im Blog detailliert erklärt
- dort gibt es auch ältere Artikel zur Entwicklung der Idee
- und außerdem einen Blick darauf, wie mit xG und anderen Metriken Prognosen erstellt werden
- Michael Caley macht mit Mike Goodman einen guten Podcast, indem Expected Goals oft als analytische Anhaltspunkte genutzt werden, den Double Pivot Pod (Twitter | Feed)
- StatsBomb ist ein anderes gutes Statistik Blog, das ebenfalls xG Modelle betreibt