Porque é que as "estatísticas" de Londres 2012 mostram a necessidade de uma classe de grandes dados

Porque é que as "estatísticas" de Londres 2012 mostram a necessidade de grandes volumes de dados

Doug Hadden, VP de Produtos

Tem havido um grande interesse nas estatísticas desportivas popularizadas pelo livro (e filme) Moneyball. A premissa do Moneyball é que as medidas tradicionais utilizadas no desporto são frequentemente incorrectas. O advento do "grandes dados" e as técnicas de big data, como a visualização, prometem mudar os nossos preconceitos sobre o desporto. O  Jogos Olímpicos Per Capita O sítio Web é um exemplo que mostra (neste momento) que Granada é o país mais bem sucedido em Londres 2012 com base na população. E há uma boa visualização de mapas.

É claro que é tudo treta e tem pouco a ver com a realidade. Nem sequer passa o teste do cheiro das estatísticas.

Isso não são grandes dados

A força do big data é a capacidade de analisar mais informação (volume) de diferentes fontes (variedade) a uma velocidade superior (velocidade). No entanto, esta análise mostra uma análise de muito pouca informação (apenas medalhas) de uma única fonte (medalhas olímpicas) e um punhado por dia. Além disso, o PIB per capita e a população são constructos altamente agregados de "poucos dados".

O que é que uma análise de grandes volumes de dados sobre o sucesso de Londres 2012 consideraria?

  • Todos os desempenhos olímpicos são comparados dentro das categorias - ficar em 5º lugar numa prova pode ser um desempenho melhor do que ficar em 2º lugar noutra
  • Informações biométricas, como a distância percorrida, o ritmo cardíaco, etc.
  • Número de atletas de cada desporto a nível mundial
  • Desvio dos resultados dos desportos colectivos que favorecem os países com maiores populações, desportos que têm várias competições semelhantes (por exemplo, natação vs. corrida) e desportos que exigem equipamento e treino mais caros
  • distorção dos resultados quando uma única vitória é necessária para colocar Granada (ou Dominica) no primeiro lugar
  • Impacto potencial de factores como a época de treino, o jet lag, a altitude
  • Distorção dos resultados com base no grau de avaliação por desporto
  • Importância dos resultados dos desportos olímpicos de inverno

Estatísticas e viés de confirmação

A análise de "pequenos dados" ajuda a confirmar os nossos preconceitos. Podemos reorganizar a informação para confirmar o preconceito de que o Canadá está a ter um desempenho superior ao dos Estados Unidos. Ou podemos decidir classificar os países, como fez a imprensa no Canadá, por medalhas ganhas. Assim, o Canadá está em 12º lugar no momento da redação deste relatório. (Tal como a NBC). Ou, como a BBC, ponderam cada medalha para colocar o Canadá em 32º lugar. Podemos então selecionar a medida que mais apoia o nosso ponto de vista.

Os grandes dados são teoria da eliminação (ou reduzir o impacto da teoria) para obter uma visão. Não é tomar uma decisão e procurar apoio nas estatísticas. Isto é colocar o desporto ao nível das campanhas políticas!

Tópicos

Contacto