115230, г. Москва, Варшавское шоссе,
д. 47, к. 4
+7 (495) 790-7591
8:30-17:30 МСК

Супер Боул 2015. Сравниваем команды

1 февраля (утром 2 февраля по московскому времени) в Глендейле, Аризона состоится очередная игра Супер Боул. Это финальная игра сезона Национальной футбольной лиги США. В этом году звание чемпиона будут оспаривать победитель прошлого года, команда «Сиэтл Сихокс» («Ястребы») и «Нью-Ингленд Пэтриотс» («Патриоты»).

Супер Боул — это не только матч, красочное шоу и почти национальный праздник в США. Это еще и большой тотализатор. В этом году в букмекерских казино штата Невада, а это единственные легальные пункты приема ставок на игру, было поставлено в сумме около 100 миллионов долларов. Ресурс Bettingexpert оценивает объем нелегальных ставок в четыре миллиарда долларов.

Игроки на ставках при выборе своего фаворита руководствуются различными соображениями. Одни полагаются на интуицию, вторые читают все сообщения про форму команд. Третьи используют подход, основанный на данных.

В круг сторонников дата-подхода входит и Шираз Азиф (Shiraz Asif). В статье Шираз предлагает алгоритм, позволяющий сравнить характеристики команд-финалистов. Хотя подход автора намного более простой по сравнению с алгоритмами главных героев фильма Moneyball, он имеет хорошие шансы на успех из-за особенностей американского футбола. Также в статье показывается пример работы с облачным сервисом BigQuery от Google.

Кто не хочет читать дальше: анализ прогнозирует победу Ястребов.

  

Подробности для тех, кто решил заглянуть под кат.

Прогноз на игру состоит из трех этапов:

1. C сайта ESPN выгружается статистика команд в сезоне 2014-2015 года. Она состоит из трех файлов: статистика нападения, статистика защиты и дополнительных показателей. Игра в нападении и защите характеризуется четырьмя парами показателей. Каждая пара состоит из показателя за сезон и среднего за игру. Эти пары:

  • пройденные ярды;
  • дальность выполненных передач;
  • пронесенные ярды (игрок пробегает дистанцию с мячом в руках);
  • набранные за игру очки.

Два специальных показателя — забитые и пропущенные полевые (удар наносится ногой с места или с полулета) голы.

2. Данные загружаются в BigQuery. Это можно сделать тремя разными способами. Наиболее доступный и демократичный из них — прямая загрузка файла в формате CSV/JSON.

3. В BigQuery работа с данными аналогична SQL. Например, чтобы вывести список команд, отсортированный по общей сумме ярдов, пройденных в нападении, нужно выполнить запрос

SELECT team, yds FROM [superbowl2015.offense] order by yds DESC

 

Выполним следующий запрос.

      SELECT team,

      rank() OVER (ORDER BY yds DESC) rk_yds,

      rank() OVER (ORDER BY yds_g DESC) rk_yds_g,

      rank() OVER (ORDER BY pass DESC) rk_pass,

      rank() OVER (ORDER BY pass DESC) rk_p_yds_g,

      rank() OVER (ORDER BY pass DESC) rk_rush,

      rank() OVER (ORDER BY pass DESC) rk_r_yds_g,

      rank() OVER (ORDER BY pass DESC) rk_pts,

      rank() OVER (ORDER BY pass DESC) rk_pts_g,

      FROM [superbowl2015.offense] WHERE

      team='Seattle' or team='New England' LIMIT 1000

Его результат.

По шести показателям из восьми в нападении Патриоты опережают Ястребов. Если убрать по одному избыточному показателю из каждой пары показателей, можно сказать, что это раунд Ястребы выигрывают со счетом 3 балла против 1.

Результат аналогичного запроса для анализа защитных характеристик: 0:4 в пользу Ястребов.

По двум специальным показателям счет оказался 1:2 опять же в пользу Ястребов (в сумме получается три, поскольку один из показателей у команд идентичен, и в этом случае каждой из них был присвоен один балл).

Простым сложением всех баллов автор получил результат 4:7 за Ястребов. Довольно убедительная победа. Этот результат соотносится с распространенным мнением, что в американском футболе выигрывает команда с лучшей защитой.

В букмекерских конторах шансы команд оцениваются почти как равные, и коэффициенты на победу каждой из команд близки к двум.

Подводя итог этому нехитрому анализу, автор задает вопрос, достаточны ли эти данные для точного предсказания победителя? Нет. Как и в бизнесе, полученные результаты нужно рассматривать как сигнал, определенный фон и направление для действий. Системы принятия решений, жестко основанные только на данных, обречены. Равно как и компании, которые их не анализируют. Наиболее успешный подход — рассматривать результаты как хорошее дополнение для собственных идей и видения.

Возвращаясь к матчу, фаворитом мы будем считать Ястребов. А как все получится на самом деле, мы увидим уже завтра.

comments powered by Disqus