other

Тимлид в команду ML-инфраструктуры YTsaurus

24 сентября 2024

З/П не указана

Город: Санкт-Петербург

Яндекс

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 6 лет

Обязанности:

Мы начинаем новый крупный проект, в рамках которого планируем сделать жизнь ML-разработчиков в Яндексе удобнее. Пользователями нового сервиса станет большинство ML-разработчиков Яндекса. Это сотни команд, которые обучают модели для таких продуктов, как Алиса, Нейро, Шедеврум. Ключевые компоненты будущего сервиса: Managed Dev Cluster для удалённой разработки и тестовых запусков на GPU; инструмент простого с точки зрения UX и эффективного запуска процессов обучения на гигантском кластере YTsaurus с тысячами GPU; оркестратор, который позволит описывать графы подготовки данных на Python и SQL; решение для трекинга ML-экспериментов (по смыслу похожее на Weights & Biases); MLOps-cистема для хранения жизненного цикла моделей и управления им. Ищем тимлида, который знает, что такое разработка сложных систем и машинное обучение. Вы возглавите команду разработки нового сервиса, которая в том числе будет обеспечивать бесперебойную работу системы и поддержку пользователей. Мы планируем сделать продукт, который будет тесно работать с опенсорс-платформой YTsaurus, которая уже используется в Яндексе для хранения большинства данных и запуска задач машинного обучения. В перспективе мы надеемся выложить новый продукт в open source. Если вы хотите принять участие в строительстве нового мира ML, который немыслим без суперкомпьютеров, — эта позиция для вас! Ведь Яндекс — одна из немногих компаний в мире, где это возможно. Какие задачи вас ждут — Руководство командойУ вас в подчинении будет команда из 3–4 опытных инженеров. — Развитие существующего сервиса для трекинга экспериментовВ компании есть сервис для трекинга экспериментов, которым пользуется множество команд. Нам предстоит переосмыслить его и встроить в новую концепцию. Нужно сделать это аккуратно, поддерживая текущий сервис и не ломая рабочий процесс у пользователей. — Создание новых сервисов для упрощения работы ML-инженеров в ЯндексеМы разрабатываем глобальный план развития всей ML-инфраструктуры Яндекса. Вместе с командой вы будете продумывать отдельные части этого плана, а также участвовать в реализации новых сервисов будущей ML-платформы Яндекса. Мы ждём, что вы Имеете богатый опыт разработки сложных систем на C++, Go или Java (одного будет достаточно) Знаете Python, можете читать и делать review кода. Способны взять под свою ответственность небольшую команду и набор сервисов, которые она развивает Готовы разбираться в разработке ML-моделей в Яндексе, а также создавать и внедрять новые инфраструктурные решения Будет плюсом, если вы Работали с ML-инструментами: W&B, DVC, MLflow, Kubeflow и другими Знакомы с инфраструктурными системами (Docker, Kubernetes, Ray, Slurm) Управляли командой разработчиков Участвовали в создании и внедрении инфраструктурных решений в больших компаниях

Имя не указано

Откликнуться
Разместить Резюме
Пожаловаться ID: 122600901

Похожие вакансии

Системный аналитик в команду Инфраструктуры

Договорная

Санкт-Петербург

WILDBERRIES

Системный администратор в команду облачной инфраструктуры

Договорная

Санкт-Петербург

ООО "СЕЛЕКТЕЛ-ЛАБ"

Технический менеджер в команду capacity инфраструктуры

Договорная

Санкт-Петербург

Яндекс

Тимлид в команду ядра системы сборки в Yandex Infrastructure

Договорная

Санкт-Петербург

Яндекс