Doug Hadden, VP Producten
Er is veel interesse in sportstatistieken, populair gemaakt door het boek (en de film) Moneyball. De premisse van Moneyball is dat traditionele maatstaven die in de sport worden gebruikt vaak onjuist zijn. De komst van "omvangrijke gegevens"en big data-technieken zoals visualisatie beloven onze vooroordelen over sport te veranderen. De Olympische Spelen per hoofd van de bevolking website is hier een voorbeeld van dat laat zien (op dit moment) dat Grenada het meest succesvolle land is in Londen 2012 op basis van bevolkingsaantal. Ik heb hier veel tweets en reacties over gezien. En er is een mooie kaartvisualisatie.
Natuurlijk is het allemaal prietpraat en heeft het weinig te maken met de werkelijkheid. Het komt niet eens door de reuktest van statistieken.
Dat zijn geen big data
De kracht van big data is de mogelijkheid om meer informatie (volume) uit verschillende bronnen (variëteit) met meer snelheid (snelheid) te analyseren. Toch toont deze analyse een analyse van zeer weinig informatie (alleen medailles) uit één bron (Olympische medailles) en een handvol per dag. En, BBP per hoofd van de bevolking en bevolking zijn zeer geaggregeerde "weinig gegevens" constructies.
Wat zou een big data-analyse van het succes van Londen 2012 inhouden?
- Alle Olympische prestaties vergeleken binnen categorieën - 5e worden in een onderdeel kan een betere prestatie zijn dan 2e worden in een ander onderdeel.
- Biometrische informatie zoals afgelegde afstand, hartslag enz.
- Aantal atleten voor elke sport wereldwijd
- Vertekening van resultaten van teamsporten die landen met een grotere bevolking bevoordelen, sporten die meerdere vergelijkbare wedstrijden hebben (bijv. zwemmen vs. hardlopen) en sporten die duurdere uitrusting en coaching vereisen
- Vertekening van resultaten waarbij één overwinning nodig is om Grenada (of Dominica) naar nummer 1 te stuwen
- Mogelijke invloed van factoren zoals trainingsseizoen, jetlag, hoogte
- Vertekening van resultaten op basis van de mate van beoordeling per sport
- Belang van Olympische wintersportresultaten
Statistiek en bevestigingsvooringenomenheid
"Kleine gegevens" analyse helpt om onze vooroordelen te bevestigen. We kunnen de informatie herschikken om het vooroordeel te bevestigen dat Canada beter presteert dan de Verenigde Staten. Of we kunnen besluiten om landen te rangschikken, zoals de pers in Canada doet, op basis van gewonnen medailles. Dit brengt Canada op de 12e plaats. (Net als NBC). Of, zoals de BBC, wegen elke medaille om Canada 32e te plaatsen. We kunnen dan de maatregel kiezen die ons standpunt het meest ondersteunt.
Big data gaat over eliminatietheorie (of het verminderen van de impact van theorie) om inzicht te krijgen. Niet je mening vormen en steun vinden in de statistieken. Dit brengt sport op het niveau van politieke campagnes!