Обязанности:
Мы команда ML Platform в отделе Trust & Safety. Отвечаем за инфраструктуру машинного обучения для модерации контента и карточек товаров Wildberries. Ежедневно через наши системы проходят десятки миллионов карточек, мы обрабатываем сотни миллионов решений по более чем 100 ML-моделям. Модели инферятся через Nvidia Triton Inference Server на GPU-кластерах. Исторически ML Platform выросла из модерации, сейчас становимся самостоятельным юнитом и расширяемся на все направления T&S. В отделе работают десятки DS, единой платформенной инфраструктуры пока нет - каждая команда решает по-своему. Ищем MLOps инженера на инфраструктурный слой платформы: управление GPU-кластером, ML-тулинг (ClearML, Kubeflow), среда обучения (JupyterHub), стандартизация пайплайнов. Строим с прицелом на масштабирование и мультитенантность. Наш стек: ClearML, Kubeflow, Nvidia Triton Inference Server, pgvector, FAISS, JupyterHub, Python, Kubernetes, Helm, GitLab CI, Grafana, PrometheusВам предстоит: Отвечать за GPU-кластер целиком: от драйверов и настройки нод до утилизации, планирования ёмкости и стратегии разделения ресурсов между командами Развёртывать и поддерживать ML-инструменты для DS-команд: ClearML, Kubeflow, JupyterHub Строить пайплайны для ML-моделей Оптимизировать inference-инфраструктуру: bin-packing, автоскейлинг, профилирование Интегрировать Feature Store / Embedding Store (pgvector, FAISS) Общаться с DS-командами, понимать их потребности и переводить в инфраструктурные решения Масштабировать платформу на весь отдел Trust & Safety Вы нам подходите, если у вас есть: Глубокое понимание kubernetes (операторы, scheduling, resource management, GPU в K8s) Практический опыт с NVIDIA GPU Опыт развёртывания и поддержки MLOps-платформ для команд DS (например, ClearML, MLflow, Kubeflow, Airflow или аналогов) Проактивность и желание строить платформу, а не просто поддерживать сервисы Умение взаимодействовать с DS-командами и переводить потребности в технические решения Будет плюсом: Опыт с Triton Inference Server или аналогами Понимание векторных БД и их оптимизации Работа с Clearml, Kubeflow и Airflow Опыт разделения и виртуализации GPU в Kubernetes для multi-tenant окружений (MIG, HAMi или аналоги)Похожие вакансии
Договорная
Москва. Станции метро: Полянка, Третьяковская, Октябрьская
АКБ Национальный Резервный Банк
Договорная
Москва. Станции метро: Полянка, Третьяковская, Октябрьская
Aston
Договорная
Москва. Станции метро: Полянка, Третьяковская, Октябрьская
Advantage Solutions