Машинное обучение сейчас находится на стадии взрывного развития. Новые решения и идеи появляются постоянно. Во многих сферах они уже изменили игру и показали себя лучше, чем люди. К примеру, нейронные сети, хотя пока не упразднили труд художников, стали выполнять большую часть их рутинного труда, особенно в сфере компьютерных игр. Копирайтерский труд и еще множество профессий от учителей до юристов находятся под угрозой после появления на их поле деятельности ChatGPT. Примеры описанного можно увидеть в соревновании VOT Challenge 2023. Это вольный перевод заметки, опубликованной на ACM, если он Вам понравится, Вы можете сходить и на оригинальный вариант. Авторам будет приятно.
Значительное влияют на взрывной рост сферы машинного обучения соревнования в различных областях. Часто победы в таких соревнованиях сопровождаются весомыми денежными призами, но нередко такие соревнования не приносят немедленных материальных выгод. Зато участие в них оказывается хорошей школой, возможностью проявить себя и открывает доступ к хорошим датасетам в различных областях.
Широко известны подобные соревнования на принадлежащей Гуглу мульти-тематической площадке kaggle. Она не единственная. Есть, к примеру, еще codalab, trustii, eval, bitgrit. Некоторые платформы специализируются в отдельных нишах. К примеру, drivendata и aicrowd – на машинном обучении с социальным эффектом, xeek – на геонауке, miccai – на обработке изображений в сфере медицины, CrunchDAO – на финансовом рынке, а zindi.africa, как следует из названия, связана со всем, что может быть важно для африканского континента. Ряд соревнований проходит под эгидой научных конференций, к примеру, NeurIPS. Появились и сайты-агрегаторы с информацией о наиболее интересных соревнованиях на различных платформах, к примеру, mlcontests.
Среди перечисленных есть одно не столь известное, но интересное ML соревнование. Исследователи в сфере computer vision с большой вероятностью сталкиваются с VOTXXXX Benchmarks – результатами VOT Challenge (The Visual Object Tracking Challenge, votchallenge.net).
Этот челендж проводится в весеннее и летнее время. Он посвящен алгоритмам tracking objects in videos. Он предоставляет стандартизированную основу для оценки и сравнения алгоритмов отслеживания, предоставляя неплохие датасеты аннотированных видео с аннотациями и отличается готовой библиотекой, заготовками примеров, адаптированных под Matlab и Python, подробной документацией, примерами с прошлых соревнований, активным общением организаторов с сообществом через рассылки и форум. Челлендж заточен под энтузиастов. Это сразу заметно по отсутствию призового фонда, что создатели челленджа пытаются компенсировать возможностями попасть в соавторы или ежегодную публикацию результатов соревнования.
История челленджа началась в 2013 году. Его идеей стало предоставление стандартизированной основы для оценки и сравнения алгоритмов отслеживания с предоставлением наборов данных аннотированных видео. При этом требовалась методология оценки визуального отслеживания объектов. Специально для этой задачи в рамках конференции ICCV2013 был разработан небольшой аннотированный набор данных и специальный инструментарий для оценки.
В 2014 году инструментарий оценки получил TraX протокол интеграции, который предлагал больше свободы для такой интеграции и более быстрое выполнение трекеров. При этом датасет расширился.
В 2015 году были добавлены новые меры оценки: надежность и точность. Датасет увеличился еще больше, был объявлен дополнительный челлендж отслеживания на основе теплового изображения.
В 2016-2019 годы VOT Challenge развивался далее, менялась процедура аннотации, появились новые суб-челленджи, посвященные среди прочего долгосрочному отслеживанию и мультимодальным последовательностям. Датасеты продолжали развиваться, среди них появились наборы данных на основе тепловых изображений и изображений RGB+глубина.
В 2020-21 годы инструментарий для оценки был наконец реализован на языке Python, что дало возможность участвовать новым командам, организаторы усложнили датасеты, удалили и заменили более простые визуальные последовательности.
В 2022 году в VOT challenge появилось очень большое число новых специализированных суб-челленджей с упором на вариации краткосрочных трекеров и одним новым долгосрочным, челлендж локализации при помощи маски сегментации, а не только ограничительной рамки.
В VOT Challenge 2023 (в текущем году) организаторы резко сменили правила, что оказало влияние на результаты множества участников. В челлендже была только одна задача, охватившая все бывшие ранее подзадачи – предсказания долгосрочных треков на видео RGB для произвольных объектов. Объекты были помечены маской только на каждом первом кадре. Датасет полностью обновили. Разрешение стало более разнообразным. Число объектов, которые надо было отслеживать на видео, выросло. Как и длина видео, и число сходных объектов, требовавших независимого отслеживания, и динамичных сцен. Объекты могли надолго пропадать из кадра и затем вновь появляться, а также быть очень маленькими. Эталонные данные могли неточно описывать объекты отслеживания. Предложенная организаторами специализированная метрика сильно отличалась от общепринятых.
Тем не менее, VOT Challenge и в текущем году подтвердил отличную репутацию в сфере соревнований по машинному распознаванию образов благодаря интересным задачам, качеству документации и удобству инструментария.
Англоязычная версия данного обзора: https://cacm.acm.org/blogs/blog-cacm/274374-vot-challenge-computer-vision-competition/fulltext.