Разрабатываем высокопроизводительные CUDA-операторы для PyTorch, обеспечивающие обучение и инференс мультимодальных моделей с максимальной утилизацией GPU ресурсов. Фокус — низкоуровневая оптимизация, кастомные ядра, memory management и эффективная работа с новыми архитектурами GPU. Обязанности разработка и оптимизация кастомных CUDA-операторов и расширений для PyTorch (C++/CUDA) профилирование и устранение узких мест в вычислительных ядрах (Nsight Compute, nvprof) оптимизация использования памяти (shared memory, registers, coalesced access, persistent kernels) реализация алгоритмов параллельных вычислений с учётом архитектурных особенностей современных GPU (Ampere, Hopper и новее) интеграция CUDA-оптимизаций в распределённые пайплайны обучения и инференса тесная работа с командами Research и Distributed Learning для поддержки кастомных моделей и операторов. Требования экспертный уровень C++ и CUDA опыт оптимизации производительности для NVIDIA GPU знание внутреннего устройства PyTorch (ATen, dispatcher, TensorIterator) навыки профилирования на GPU и поиска и устранения узких мест в реализации нейросетевых операторов опыт работы с Mixed Precision и кастомными кернелами Будет большим преимуществом: опыт с Triton, CUTLASS, cuBLASLt, NCCL; участие в open-source проектах PyTorch. Условия комфортный современный офис рядом с м. Кутузовская гибридный формат работы ежегодный пересмотр зарплаты, квартальная и годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития программа адаптации и помощь руководителя на старте расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа ипотека выгоднее до 7% для каждого сотрудника бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера
Похожие вакансии