Fotboll och statistik

På fredag inleds 2012 års EM i fotboll. Med det kommer spekulationer kring laguttagningar, matchresultat och den avgörande frågan – vilket land kommer att vinna turneringen? En naturlig utgångspunkt är att studera länders och spelares tidigare prestationer, dvs. analysera statistiken. Kopplingen mellan statistik och idrott fick stor uppmärksamhet i och med förra årets film Moneyball med Brad Pitt i rollen som Billy Beane, en general manager i baseball som inser att statistik kan användas för att hitta undervärderade spelare. Historien bygger på en verklig händelse (och även på en bok med samma namn av Michael Lewis) och metoden att använda statistik för att analysera spelare, så kallad sabermetrics, används numera av alla stora baseballklubbar. Det innebar en stor förändring. I filmen ges exempel på hur klubbarna tidigare kunde utvärdera unga talanger med omdömen som: ”He’s got an ugly girlfriend. Ugly girlfriend means no confidence.”

Även inom fotbollen har statistiken fått en allt större betydelse. I en väldigt intressant artikel i Financial Times förra året beskrivs den utvecklingen. När årets engelska mästare, Manchester City, år 2008 köptes av ett investmentbolag i Abu Dhabi (med kopplingar till den kungliga familjen) var en av de första åtgärderna att anställa ett stort antal dataanalytiker. Andra storklubbar låg då redan långt före. Arsenals manager Arsene Wenger är en stor tillskyndare av statistik (vilket i och för sig är en klen tröst då laget trots detta inte vunnit en titel på sju år). Som beskrivs i artikeln var en milstolpe då 1996 börjades samla in mer data från engelska fotbollsmatcher. För att kunna göra effektiva analyser krävs bra data. Men det krävs också att man vet vilka mått man ska studera. Enligt uppgifter berodde Alex Fergusons försäljning av försvararen Jaap Stam 2001 på en misstolkning av statistiken. Ett annat exempel på hur svårt det kan vara är Liverpools köp av Andy Carroll, som tydligen ska vara baserat på statistisk analys (känner mig personligen rätt tveksam till den slutsatsen).

Som på så många andra områden börjar mängden data även kring fotboll bli så pass omfattande att det gäller att välja vilka mått som är av vikt (vilket också är det roliga med dataanalys). Analyser har visat att de mått som man intuitivt kan tänka sig vara viktiga, som löpsträcka under match, antal tacklingar, osv., inte är speciellt bra variabler att slänga in i modeller för att bedöma spelare och lag. Istället är sådant som antal löpningar i hög hastighet och passningar till rätt adress (i synnerhet sådana passningar framåt) bättre predikatorer (se även den här artikeln). Man kan vara säker på att det pågår mycket forskning på området, men då det innebär stora ekonomiska och sportsliga fördelar är det inte säkert eller ens troligt att alla framsteg blir offentliga, även om det finns undantag (se t.ex. den här vetenskapliga artikeln).

Om ni själva vill göra lite analyser inför fotbolls-EM kan ni använda de dataset som statsvetaren Anders Sundell satt samman i olika format: Excel, Stata och SPSS. Där finns en del grundläggande data kring de spelare som deltar i EM. Bland annat kan man se att Sverige i alla fall vinner vad gäller medellängd.

Andra har satt samman andra dataset med mer information, t.ex. från spelet Football Manager, så om ni söker runt kan ni hitta mer data, eller varför inte samla in själva under mästerskapet?

Statistikprogrammet R

För den som vill analysera datamaterial finns en uppsättning statistikprogram att välja bland. De har sina för- och nackdelar. Ett kraftfullt program som allt fler använder, framför allt inom den amerikanska universitetsvärlden, är R. Förutom att det är ett kraftfullt program med bra grafik har det fördelen att det är gratis. Ett tecken på hur populärt det blivit i universitetsvärlden är den sammanställning av 50 olika introduktioner till programmet från olika universitet som finns här. Jag har även en del länkar på den här sidan, se menyn ovan. För att ladda ned programmet gå hit.