Самый мощный в мире суперкомпьютер Frontier, запущенный в этом году, хоть и начал работу, но пока не функционирует на должном уровне, рассказал директор программы Oak Ridge Leadership Computing Facility (OLCF) Джастин Уитт.
Frontier базируется на 64-ядерных процессорах AMD EPYC Milan (2 ГГц) с ускорителями AMD Instinct MI250X и использует фирменный интерконнект Slingshot 11-го поколения. По словам Уитта, именно ускорители AMD Instinct MI250X и интерконнект Slingshot вызывают проблемы с оборудованием Frontier.
«В основном это проблемы масштабирования в сочетании с разнообразием приложений, поэтому проблемы, с которыми мы сталкиваемся, в основном связаны с выполнением очень, очень больших заданий с использованием всей системы и обеспечением согласованной работы всего оборудования», говорит Витт. Он добавил, что проблема не только в работе ускорителей, есть вопросы и к работе других компонентов.
Джастин Витт считает, что подобные проблемы – обычное дело при работе такой сложной суперкомпьютерной системы, поэтому он не видит большой вины AMD в этих сбоях. По его словам, аналогичные проблемы наблюдались и при запуске других вычислительных комплексов.
Многие приложения требуют уникальной настройки для работы на оборудовании такого размера. Из-за возникших аппаратных проблем, в том числе по вине чипов AMD, сейчас происходит задержка установки операционной системы. Но специалисты Окриджской национальной лаборатории уверены, что все работы по отладке системы пройдут в намеченные сроки.