Обязанности:
Мы занимаемся скоростью и надежностью больших обучений LLM на тысячи GPU. Мы стараемся выжать максимум из железа и оптимальным образом использовать сеть. А еще большие обучения - сложный с точки зрения инфрастуктуры проект: GPU перегреваются, сеть ломается, хосты перезагружаются. Наша цель - сделать так, чтобы эти события минимально влияли на стабильность и прогресс обучения. Задачи: Оптимизация вычислений на GPU Ускорение работы в прочих компонентах: Nirvana, YT Развитие инструментов для быстрой диагностики инфра-проблем Ожидания: Уверенное владение языками программирования C/C++ и отличные навыки программирования. Способность эффективно работать в команде и желание делиться опытом с коллегами. Интерес к современным методам машинного обучения и большим языковым моделям (LLM). Опыт работы с Nvidia GPU, CUDA Будет плюсом: Понимание принципов MLOps и опыт интеграции различных подсистем.