Обязанности:
Привет! Мы — команда платформы инференса Ozon. Мы строим ML - инфраструктуру, отвечающую за финальный и самый критичный этап жизненного цикла моделей — их работу в реальных продуктах. Через нашу платформу проходят ранжирование, рекомендации, компьютерное зрение и другие ML-сценарии, влияющие на миллионы пользователей. Наша миссия — создавать отказоустойчивую и высокопроизводительную платформу инференса, способную выдерживать пиковую нагрузку 200K+ RPS и эффективно управлять кластерами GPU-серверов. Мы работаем на стыке сильной backend-инженерии (многопоточность, распределённые системы, Kubernetes) и глубокой ML-специфики с фокусом на оптимизацию работы моделей на GPU. Наш стек Go, Java — платформенные сервисы Python — ML-интеграции Kubernetes, Docker, Nvidia Device Plugin Triton Inference Server Kafka, PostgreSQL, Redis, S3 GitLab CI Вы будете Проектировать и разрабатывать высоконагруженные сервисы для инференса ML-моделей в облачной среде. Оптимизировать выполнение моделей на GPU: batching, управление GPU-памятью, настройка GPU sharing (MIG), снижение latency. Интегрировать ML-рантаймы (TensorRT, ONNX Runtime) в платформенную инфраструктуру на Java и Go. Разрабатывать механизмы автоскейлинга и эффективного распределения нагрузки между инференс-сервисами. Обеспечивать SLA платформы: участвовать в разборе инцидентов, выявлять узкие места и внедрять системные решения для повышения стабильности и производительности. Примеры задач Разработка унифицированного API инференса, абстрагирующего команды Data Science от особенностей GPU и рантаймов. Автоматическая оптимизация и конвертация моделей под различные типы GPU. Реализация асинхронного инференса с автоскейлингом в Kubernetes. Повышение утилизации GPU-кластера без деградации latency Нам важно Коммерческий опыт разработки на Go или Java/Kotlin от 4-х лет. Опыт проектирования микросервисной архитектуры и работы с распределёнными системами. Понимание многопоточности и конкурентного программирования. Умение писать чистый, тестируемый и поддерживаемый код. Опыт работы с облачной инфраструктурой (желательно Kubernetes). Будет плюсом Опыт работы с ML-инфраструктурой и GPU (CUDA, Triton, KServe). Понимание MLOps-практик. Опыт работы с Kafka или другими системами очередей. Опыт оптимизации высоконагруженных систем.Похожие вакансии
Старший Go-разработчик, Маркетинговая платформа. Система управления
Договорная
Москва. Станции метро: Москва-Сити
Ozon