В MIT помогли слепому роботу научиться бегать за 3 часа

21 Июля 2022, 21:43 / 1264 0

Лаборатория биомиметики Массачусетского технологического института недавно побила рекорд скорости для робота Mini Cheetah: не совсем скорость Усэйна Болта, но, вероятно, быстрее, чем вы можете бежать. Но этот робот не может видеть, и исследователи Массачусетского технологического не обучали его ходить или бегать. Он научился сам, причем всего за три часа.

Традиционно процесс, который люди используют для обучения роботов, требует изучения реальной системы и ручного проектирования моделей. Этот процесс хорош, хорошо отлажен, но не очень масштабируем, сказал профессор Массачусетского технологического института Пулкит Агравал. «Но мы исключаем человека из разработки конкретных моделей поведения».

По словам профессора Агравала, обучение робота традиционным способом занимает около 100 дней интенсивной работы. Это человеческое время, затрачиваемое компьютерными учеными и инженерами на разработку поведения и завершение многомесячного обучения методом проб и ошибок.

Сокращение времени до трех часов означает широкое использование симуляторов с использованием технологий NVIDIA и других и изменение методологии. А это означает переход от того, чтобы говорить роботу, что делать, к тому, чтобы дать ему относительную свободу совершать ошибки.

Если убрать дизайнера-человека, придется за это платить, говорит профессор Агравал. Когда мы учимся методом проб и ошибок, это требует гораздо больше данных. В реальном мире это было бы очень дорого и долго. Симулятор предлагает своего рода безопасную игровую площадку, где робот может упасть и вернуться назад и работать намного быстрее, чем в реальном времени.

Моделирование и свобода совершать ошибки, не имеющие критических последствий, имеют значение. Предыдущие системы управления роботами, такими как роботы Boston Dynamics и MIT Cheetah 3, были разработаны аналитически. По комментарию Массачусетского технологического института, это означает полагаться на инженеров для анализа физики передвижения, формулирования абстракций и реализации иерархии контроллеров, чтобы заставить робота балансировать и работать. В реальном мире это означает пробы и ошибки, их анализ, адаптацию программных моделей и повторные попытки, и все это при попытке уберечь аппаратное обеспечение робота от поломок, когда он падает.

Итак, симуляция работает, самообучение работает, но есть еще один важный шаг: адаптация смоделированных навыков к реальному миру, который всегда будет отличаться от симуляции. (Независимо от того, насколько хороша ваша симуляция, она не является точной или полностью эквивалентной реальности).

«Мы разработали подход, с помощью которого поведение робота улучшается на основе смоделированного опыта, и наш подход, что очень важно, также позволяет успешно применять эти изученные модели поведения в реальном мире», сообщили в Массачусетском технологическом. «Интуиция, стоящая за тем, почему навыки бега робота хорошо работают в реальном мире, заключается в следующем: из всех сред, которые он видит в этом симуляторе, некоторые научат робота навыкам, которые полезны в реальном мире. При работе в реальном мире наш контроллер определяет и применяет соответствующие навыки в режиме реального времени».