Обязанности:
Команда инфраструктуры обеспечивает весь фундамент Авито - от серверов, до внутреннего облака. Сейчас мы строим новое для себя направление, которое будет отвечать за все HPC под задачи AI и больших языковых моделей (LLM). Команде предстоит с нуля построить инфраструктуру под эти цели на базе платформы HGX/DGX, развивать и поддерживать ее. Вам предстоит: Участвовать в разворачивании HPC кластера для задач ML/AI с нуля; Заниматься сопровождением и развитием высокопроизводительных кластеров. Мы ждём, что вы: Понимаете архитектуру высокопроизводительных кластеров и принципы их построения; Знаете, что такое Infiniband и как строятся сети для HPC/AI/ML-кластеров; Имеете большой опыт работы с планировщиками распределенных вычислений (например Slurm); Имеете опыт работы с распределенными файловыми системами; Понимаете, как оптимизировать Linux для получения максимальной производительности ML кластера и IB сети; Умеете писать скрипты для автоматизации собственных задач. Работа у нас — это: возможность реализовать свои идеи в проекте с многомиллионной аудиторией; талантливая команда, готовая поддержать ваши инициативы; мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы; прозрачная система премий, достойная зарплата — размер обсудим на собеседовании; личный бюджет на обучение, который можно тратить на книги, курсы и конференции; забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист; удалёнка и замечательный офис в двух минутах от метро «Белорусская»: панорамный вид на центр города, места для уединённой работы и зоны отдыха. Также у нас есть офисы в Санкт-Петербурге, Казани и Самаре.