Система мониторинга эффективности задач на суперкомпьютере НИУ ВШЭ включена в Реестр российского ПО
Разработанная в Высшей школе экономики система мониторинга эффективности задач на суперкомпьютере HPC TaskMaster включена в Реестр российского программного обеспечения. Для этого был выполнен большой комплекс подготовительных работ. Доказав эффективность системы, Вышка готова распространять ее и в другие университеты и компании.
С момента появления суперкомпьютеров обеспечение эффективности их использования является важнейшей задачей. Для крупных вычислительных кластеров разрабатываются собственные системы мониторинга. Суперкомпьютер «cHARISMa», который используется сотрудниками, преподавателями и студентами Высшей школы экономики для проведения научных исследований, не стал исключением.
Отечественная программная система HPC TaskMaster была разработана с применением научного подхода и внедрена в 2022 году. Она помогает пользователям суперкомпьютера эффективнее выполнять вычисления: предоставляет информативные отчеты о выполненных задачах, указывает на ошибки, выдает рекомендации по повышению эффективности. Кроме того, система позволяет эффективнее использовать ресурсы суперкомпьютера в целом, экономя дорогостоящее машинное время. По статистике, в первом полугодии 2023 года система позволила повысить эффективную производительность суперкомпьютера на 20,5%.
Для включения в Реестр российского программного обеспечения пришлось выполнить довольно объемный комплекс работ по пересмотру используемых технологий и подробному документированию разработанной системы. Например, пришлось отказаться от использования в качестве базовой операционной системы Linux Ubuntu из-за лицензионных ограничений. Была улучшена безопасность кода, сформирован тестовый набор данных для демонстрации работы эксперту, разработаны варианты развертывания системы как в docker-контейнере, так и в виде образа виртуальной машины.
Далеко не всякая зарегистрированная российская программа может попасть в Реестр российского программного обеспечения. Это видно из статистики: в реестре на сегодняшний день около 18 тысяч программ, а количество обычных свидетельств о регистрации программ, выданных Роспатентом, приближается к 300 тысячам. Для включения в реестр программа должна удовлетворять множеству законодательных и технических требований.
Дмитрий Бондарь, старший директор по цифровой трансформации НИУ ВШЭ
«Продуктивная работа современного суперкомпьютерного комплекса в многопользовательском режиме невозможна без создания программной системы по контролю и оптимизации потока задач. В Вышке такой системой стал HPC TaskMaster. Над его разработкой на протяжении нескольких лет трудилась команда отдела суперкомпьютерного моделирования, при этом разработка базируется на опыте всего коллектива университета, выполняющего исследования при помощи суперкомпьютера.
В современном мире скорость проверки гипотез, обучения искусственного интеллекта и решения инженерных задач на высокопроизводительных машинах определяет конкурентоспособность организации в целом. Без автоматизации процессов взаимодействия с суперкомпьютером новые задачи могут просто не дождаться своей очереди или потерять актуальность.
Доказав эффективность системы у нас, мы готовы ее распространять и в другие университеты и компании. Таким образом мы хотим поделиться своим опытом и повысить эффективность заинтересованных научных и производственных коллективов.
Включение HPC TaskMaster в Реестр российского программного обеспечения — существенный шаг в этом направлении. Адаптация программного обеспечения и его описание под требования реестра — трудоемкий процесс, но он показывает, что продукт соответствует всем требованиям российского законодательства и готов к использованию за пределами Вышки».
Павел Костенецкий, начальник отдела суперкомпьютерного моделирования НИУ ВШЭ
«Наш отдел не просто вручную администрирует суперкомпьютер. Мы создали систему, которая теперь нам и помогает. Она в сотни раз превосходит инженера по скорости анализа эффективности вычислений, выполняющихся на вычислительном кластере. Соответственно, эффективность работы нашего суперкомпьютерного центра стала выше, чем классического центра с ручным отслеживанием ошибок пользователей.
Наша система сама может рекомендовать пользователям суперкомпьютера, что нужно улучшать в их вычислительных задачах, а при серьезных ошибках даже прекращать некорректно запущенные вычисления одного пользователя в пользу запуска эффективных задач другого. Этот подход позволяет не допускать простоя оборудования, повышает количество одновременно выполняемых исследований».