Биг Дата, о чём ты нам расскажешь?

Исследование полутора миллионов результатов любительских соревнований. Статистика

TRILIFE.RU
3884
6
2020-02-05T01:26:46+03:00
467 789

С недавних пор занимаюсь анализом данных по работе, и вот решил попробовать применить полученные навыки и в свободное время. Летом я узнал о существовании ресурса tristats.ru, часто туда захаживал, смотрел, исследовал и в один прекрасный момент подумал, а почему бы не сделать это программно, просто стало интересно, что может получиться.

Итак, в базе собраны данные за последние 30 лет. Это почти 2000 гонок в которых в совокупности финишировало почти 1.5 миллиона участников. Немало. Вот как это выглядит на графике:

alt text

Можно увидеть, что начиная с 2011 года идет бурный рост как количества гонок, так и количества участников. Причем, как раз в этот момент становится заметно больше гонок именно в России. Тут, конечно, может играть роль как фактическое количество соревнований и участников, так и собираемость данных. Но мне кажется, что на самом деле имеет место и то, и другое. Чтобы не иметь сильного перекоса в количестве данных для моих исследований, я отброшу те, что были раньше 2010 года, и таким образом буду работать с данными “за последние 10 лет”.

alt text

Здесь уже можно видеть достаточно равномерный рост как количества гонок, так и количества финишеров. В среднем в год прибавляется по 30 новых гонок и по 22 000 финишеров. Хочется отметить, что количество гонок в России, как и количество российских атлетов также растет, причем значительно. И это не может не радовать. Идем дальше. Поскольку подавляющее большинство участников не являются профессиональными спортсменами, эти данные лучше подходят для исследования именно любительского триатлона. И чтобы сделать анализ более чистым, я решил исключить профессиональные соревнования из своей выборки, а их оказалось немало. Также я убрал все старты из серии extreme, так как ввиду сложности трасс, там другие скорости и они, пожалуй, требуют отдельного внимания. В общем, пока сосредоточимся на более-менее стандартных результатах. И вот что осталось:

alt text

1135 гонок и 1.2 млн финишеров. Это 59 % процентов от всех гонок и 84 % от всех финишеров. То есть убрали 41 % гонок, но в них попали лишь 16 % финишеров. Значит эти гонки в среднем были не очень массовыми. Ну логично, это профессиональные соревнования с жесткой системой отбора и экстремальная серия, мягко говоря, не для всех. А что там с посещаемостью оставшихся стартов?

alt text

Что ж, вы все видите. В среднем в мире гонки очень массовые: до полутора тысяч участников в среднем на гонку в 2013 году. Но после этого есть тенденция к снижению среднего числа. Видимо это как раз за счет появления большего числа отечественных стартов, пока не таких массовых. Лично меня это радует: приятно, когда рядом есть люди, близкие по духу, но все хорошо в меру. Кстати, я иногда пишу участники, иногда финишеры. Дело в том, что в базе tristats нет информации о DNF, то есть протоколы содержат только финишировавших. А жаль, это было бы любопытно. Таким образом мы здесь имеем дело только с теми, кто дошел до финиша, и под участником или атлетом в данном тексте подразумевается именно финишер.

Вот мы отфильтровали данные, с которыми будем работать дальше. Если выбрать из них 1% случайным образом, то получим ту самую картинку, которую я поместил на обложку. Вот она:

alt text

Попытка отобразить значительно больше ни к чему хорошему не приведет, так как точки сплошным слоем заполнят практически всю область, да и предел возможностей техники тоже не позволит зайти слишком далеко. Но и так видно уже немало. Во-первых – точек больше справа, они собираются в более плотные насыщенные пятна. Это просто: чем позднее, тем больше гонок, больше финишеров. Далее, можно видеть, что все точки сгруппированы по полосам, причем как по горизонтальным, так и по вертикальным. Горизонтальные это конечно дистанции: верхняя от 9 до 17 часов примерно, это железка, от 4 до 8 – половинка, в районе 2.5 – олимпийка, а в районе 1.5 – спринт, но они правда уже не очень хорошо различимы, а в первой половине временной шкалы данных по коротким дистанциям почти нет. Но об этом чуть позже. А что же за вертикальны полосы?  Да это же сезонность! Ну да, все старты в основном летом, а зимой почти нет. Но это у нас зима с декабря по февраль, а в южном полушарии наоборот. Но ведь в базе есть информация о месте проведения гонки, самое время развернуть карту!

alt text

Здесь отображены старты за все 10 лет. Чем больше круг, тем больше стартов в одной локации. На Коне, например, 10, а в Сочи - 20. В Южном полушарии совсем мало стартов, потому и полосы. Достаточно много в США. Но основная концентрация, конечно, в Европе.

alt text

Но вернемся к основным результатам. Как мы заметили, помимо сезонности, четко видно разделение по временам, правда в основном для железок и половинок, и похуже для олимпиек и спринтов. К тому же их, вероятно, заметно меньше. А вот как на самом деле:

alt text

Что ж, самая популярная дистанция – это половинка, на нее приходится половина всех гонок из отфильтрованной базы. Вдвое меньше железок. И почти по 12 процентов – олимпийка и спринт. Но это что касается количества гонок. А по количеству участников расклад другой: 57 % финишеров приходится на половинку, 37 % - на железку. На олимпийку и спринт вместе приходится лишь 6.3 % финишеров, из них на спринт – меньше 2 %. Вот так. В динамике это распределение выглядит следующим образом:

alt text

alt text

Напомню, что я убрал из рассмотрения все профессиональные соревнования, где преобладают как раз короткие дистанции. А вот среди любителей увы.Теперь вместо 1 % случайных результатов отобразим средний по каждой гонке.

alt text

Похоже. Но разброс уже гораздо меньше. Дистанции видны уже более четко. Чтобы отбросить сомнения, применим цвет.

alt text

Так, средние времена мы знаем. Ну и дистанцию тоже. Примерно. К сожалению, в данных нет упоминания о точной длине этапов, поэтому ничего не остается как считать их стандартными. Итак, пусть все спринты будут ровно 25.75 км, олимпийки 51.5 км, половинки 113 км, а железки 226 км. Таким образом мы можем вычислить среднюю скорость на каждой гонке, и вот она:

alt text

В основном, точки собраны достаточно кучно на уровне примерно от 17 до 22 км/ч, хотя проявились несколько быстрых гонок. Судя по всему, это либо профессиональные старты, не отфильтрованные по какой-то причине, либо гонки с отмененным или сокращенным каким-либо из этапов. Но их настолько мало, что переживать не стоит, к тому же, как видно присутствуют и несколько медленных гонок со средними скоростями около 15 км/ч, они друг друга компенсируют. Кстати, динамика средней скорости по всем дистанциям за год не показывает никакого ускорения. Наоборот, в первые пять лет налицо стабильное замедление. Такие дела. Ну раз уж мы разделили гонки по дистанциям, давайте посмотрим на какой же дистанции самая высокая средняя скорость. Думаете спринт? Как бы не так! Он лишь на третьем месте.

alt text

Конечно, средние скорости по всем дистанциям очень близки. Но если просмотреть в более узком диапазоне, то разница видна более отчетливо.

alt text

Итак, спринт и железка в среднем самые медленные. Ну железка понятно, там торопиться некуда. А почему же спринт? Может быть из-за того, что транзитки там занимают гораздо большую часть времени. Может из-за того, что соотношение велоэтапа к плаванию с точки зрения средней скорости более выгодное на железке, чем в спринте? А может дело в том, что в спринте много новичков, которые только пробуют триатлон, и пока далеко не на пике физической формы, а на железку люди выходят уже более-менее опытными и подготовленными? А может все это в комбинации? Я не знаю ответа. Почему половинки самые быстрые? Причем со значительным отрывом. Может это как-то связано с их исключительной популярностью среди участников? Трудно понять. Кстати, среднюю скорость, как и среднее время по дистанциям можно считать двумя способами: 1. По гонкам. Сначала посчитать среднее по каждой гонке, а потом взять среднее по этим средним. 2. По финишерам. Просто посчитать среднее время по всем финишерам из всех гонок по данной дистанции. Но разница получается незначительная - всего от 0.2 % до 1.2 %.

alt text

Я придерживался первого варианта. Для определенности. Ну, средняя скорость на гонке – это, конечно, хорошо, но ведь каждая гонка состоит из трех этапов с очень разными скоростями. А какими? Вот:

alt text Оказывается это ровно 3, 30 и 10 км/ч. Такие красивые и круглые числа - просто магия! Торжество нумерологии! Даже округлять сильно не пришлось. В более привычных терминах темпа для плавания и бега это будет соответственно 2 мин/100 м и 6 мин/км. Ну, сравнивать эти скорости между собой, наверное, не имеет большого смысла. А чтобы понять быстро это или нет, мы сравним их со скоростями топ-финишеров. На каждой гонке возьмем 1 % самых быстрых и вычислим средние из их скоростей на каждом из этапов. Потом полученные скорости усредним по всем гонкам. Получается следующая картина:

alt text

Плавание 4.35 км/ч или 1:22 мин/100 м, велосипед 38.9 км/ч, и бег 15.3 км/ч или 3:55 мин/км. Для того чтобы лучше разглядеть разницу между средними и высокими скоростями на каждом этапе, примем скорость самых быстрых за 100 %.

alt text

Средняя скорость в плавании составляет 69.5 %, на велоэтапе 77.5 % и 65.7 % в беге от средней скорости 1% самых быстрых. В более узком диапазоне это выглядит так:

alt text

Что ж, получается самое большое отставание в беге - 34.3 %. Неожиданно. Ведь бег самый доступный и массовый вид. Казалось бы, все должно быть наоборот. Ведь у среднего участника велосипед вовсе не такой крутой как у элиты, а плавание вообще для многих является проблемным видом. Но цифры говорят сами за себя. Что касается бега, то видимо проблема не в беге как таковом, а в именно в беговом этапе. Чувствуете разницу? Судя по всему, для среднего атлета бег после велосипеда дается большим трудом. Плюс усталость. Ведь абсолютное большинство гонок как мы помним это длинные дистанции. Из этого я делаю вывод, что большинство уделяет недостаточно внимания брикам на своих тренировках, а также, возможно, берет чуть более высокий, чем нужно, темп на велоэтапе. Вероятно, если попытаться выровнять свое отставание от топов по этапам и общий результат был бы лучше, и ощущения приятнее. Идем дальше. Если все соревнования можно поделить по дистанциям, а каждое по этапам, то участников обычно делят по возрастным группам. И вот общее распределение:

alt text

Глядя на него, можно с уверенностью сказать: Триатлон – вид спорта среднего возраста! Самая многочисленная группа что у мужчин, что у женщин 40-44. Далее по численности, примыкающие к ним с обеих сторон. Совсем молодых 18-24 мало. Пожилых, понятно тоже. В среднем соотношение мужчин и женщин - 80/20. Причем доля женщин достаточно стабильная за последние 9 лет при постоянном значительном росте общего количества участников. Но для чего нас делят на возрастные группы? Считается ведь что в каждой группе свой уровень скоростей. Давайте посмотрим какой.

alt text

Действительно, чем моложе группа, тем выше средние скорости. И у мужчин, и у женщин. Но разница между соседними группами не одинаковая. Она тем больше, чем старше группы. То есть, например, разница средних скоростей между 25-29 и 30-34 около 1 %, а между 55-59 и 60-64 уже почти 4%. Такова статистика. Также на этом графике вы можете видеть группы PRO. Их скорости существенно выше. Именно поэтому я убрал из рассмотрения профессиональные старты, хотя в любительских PRO-атлеты остались, но их немного, посмотрите на распределение выше. Кстати, данное  распределение по группам не единственно возможное. Где-то делят по десятилетиям, существуют разные верхние и нижние границы. Однако, такое разбиение, как рассмотрено здесь, является самым распространенным и покрывает почти 97 % случаев, что для исследования статистики очень удобно.С одной стороны время делает нас старше и переводит во все более старшую группу, где по статистике средние скорости снижаются, с другой стороны с течением времени мы тренируемся, набираем форму, прогрессируем. А насколько? Чтобы ответить на этот вопрос, нам нужно взять результаты всех атлетов, выступавших на нескольких соревнованиях, и посмотреть динамику. Итак, среди всех атлетов, возьмем тех, кто финишировал минимум в двух гонках, минимум в двух разных календарных годах. Не будем брать участников из групп MPRO и FPRO, они стартуют гораздо чаще и вообще у них с прогрессом все по-другому. Так же исключим тех, кто начал раньше 2010 года, чтобы у нас остались только те, у кого вся соревновательная история укладывается в последние 10 лет. И таких немало – 190 000 чел. Это чуть больше трети от вообще всех уникальных участников с 2010 года. Выберем 15 имен случайным образом и посмотрим на динамику результатов.

alt text

Однако средняя скорость на дистанции не совсем объективный показатель, ведь гонки разные, где-то трасса сложнее, где-то проще. Чтобы учесть это, отнормируем результаты по средней скорости на гонке. Получится следующая картина.

alt text

То есть, если атлет на своей первой гонке показал скорость в 98 % от средней на этой гонке, а спустя некоторое время на следующей гонке 102 % от средней на ней, то мы говорим, что имеет место прогресс. Конечно, на каждой гонке свои участники и от этого зависит и средняя скорость. Но учесть это очень сложно, поэтому будем считать, что средняя скорость на гонке — это ее объективная характеристика.Теперь, чтобы иметь возможность анализировать прогресс для всех участников, разобьем их данные на равные периоды. Для удобства возьмем год. И отсчет будем вести с единицы, то есть с дебютного года участия в соревнованиях. Например, если кто-то начал участвовать в 2010 году, побывал в нем на одной гонке, где показал результат 97 % от средней скорости, а в следующем сезоне 2011 участвовал в двух гонках с результатами 103 % и 101 % соответственно. Эти данные представим в виде трех точек с координатами [1, 97], [2, 103], [2, 101]. Другой пример, кто-то выступил в 2012 году один раз с результатом 88 %, потом сезон пропустил, потом два сезона подряд в 2014 и 2015 выступал по одному разу с результатами 90 % и 95 %. Его точки будут иметь координаты [1, 88], [3, 90], [4, 95]. И такие наборы сформируем для всех 190 000 наших многократных финишеров. Затем вычислим средний результат для всех точек с одинаковой первой координатой и соединим эти средние значения между собой.

alt text

Что ж, мы видим средний прогресс триатлета-любителя. Скорость в дебютный сезон, как правило, немного ниже средней – примерно на 2%. Но если продолжать тренироваться и выступать, то уже на второй-третий сезон есть все шансы оказаться среди лучших и продолжить прогрессировать. Ускорение в первые годы ожидаемо более значительное чем позднее. А после шестого года никакого стабильного тренда к повышению скорости вообще нет. То вверх, то вниз. Но это все в среднем. А так у каждого ведь свой путь и своя линия прогресса!

На этом все. Спасибо за внимание. Надеюсь, было не слишком сложно.

Всем успехов в новом сезоне! До встречи на стартах!

Обновление: Опубликовал на хабре подробное описание того, как проходила работа над данной статьей. Можно почитать.

Оставлять комментарии могут только зарегистрированные пользователи, пожалуйста, авторизуйтесь

11:10, 5 Февраля 2020
Отлично представлено!

Оставлять комментарии могут только зарегистрированные пользователи, пожалуйста, авторизуйтесь

13:53, 5 Февраля 2020
Отличная статья и проделанная работа. Спасибо!

Оставлять комментарии могут только зарегистрированные пользователи, пожалуйста, авторизуйтесь

14:04, 5 Февраля 2020
Отличная аналитика, прочитал с удовольствием. Многие вещи знал интуитивно, цифры доказали.

Оставлять комментарии могут только зарегистрированные пользователи, пожалуйста, авторизуйтесь

11:10, 6 Февраля 2020
Спасибо! Отличная аналитика, теперь гораздо понятнее, где твое место и куда надо двигаться. Про беговой этап тоже очень интересна статистика, надо больше работать с бриками.

Оставлять комментарии могут только зарегистрированные пользователи, пожалуйста, авторизуйтесь

10:41, 7 Февраля 2020
Потрясающий анализ! Спасибо большое!

Оставлять комментарии могут только зарегистрированные пользователи, пожалуйста, авторизуйтесь

10:54, 10 Февраля 2020
Спасибо за отзывы! Я рад, что вам понравилось!

Оставлять комментарии могут только зарегистрированные пользователи, пожалуйста, авторизуйтесь