Обязанности:
Компания Мы — крупная и динамично развивающаяся финтех-компания, работающая с большими объемами данных. Ищем MLOps-инженера с сильной DS-насмотренностью, который понимает жизненный цикл моделей, говорит с дата-сайентистами на одном языке и при этом способен руками развернуть компонент в Kubernetes и настроить его мониторинг. У нас большая свобода в выборе инструментов и огромный бэклог развития — вы попадете в момент, когда платформа еще не устоялась, и сможете повлиять на ее архитектуру. Направление Строим одну из самых гибких и всеобъемлющих ML-платформ на рынке. На данный момент в ней уже есть 3-4 подсистемы, и мы активно их развиваем. Ключевая особенность платформы в том, что она способна инференсить модели всех существующих классов: от классического ML и нейросетей до больших языковых моделей (LLM) и уникальной технологии федеративного обучения. Стэк Платформа базируется на Kubernetes. Платформа для DS: JupyterHub, Airflow, Feast (feature store). Управление Lifecycle: MLflow. Инференс: KServe, Triton Inference Server, CUDA, TensorFlow Runtime. Хранилище данных: Hadoop, Greenplum, S3, PostgreSQL. Observability: Prometheus, Grafana, Opensearch, Apache Superset. CI/CD и Безопасность: Bamboo, Keycloak. Спектр задач В отличие от чистого DevOps или чистого DS, ваша роль будет гибридной. В команде уже есть сильный инженер с DevOps-уклоном, теперь нам нужен человек с экспертизой в моделях, чтобы восстановить баланс. Сопровождение E2E для модельных артефактов на всех этапах жизненного цикла: от эксперимента до продакшена и мониторинга. Организация инференса моделей. В ближайших планах — реализация инференса для ансамбля нейросетей. Это включает выбор оптимального решения и его внедрение. Доработка Observability всей платформы: настройка сбора метрик, настройка централизованного сбора и анализа логов, настройка алертинга. Участие в R&D-активностях. Работа с федеративным обучением и другими инновационными направлениями по мере их появления в бэклоге. Разработка CI\CD для ML-моделей и признаков, автоматизация выкатки сервисов и компонентов платформы. Внедрения моделей с использованием различных Model Runtime Services в онлайн и пакетном режиме. Развитие и поддержка инструментов тестирования моделей. Поддержка и развитие инфраструктуры: работа с Kubernetes для раскатки и поддержки компонентов в режиме высокой доступности. Что ожидаем от вас Опыт работы в MLOps или смежной роли (DS, перешедший в MLOps) от 3-х лет. Понимание жизненного цикла моделей и насмотренность в различных типах ML-моделей (от классики до нейросетей). Умение писать и читать код на Python. Понимание концепций Observability (метрики, логи, алерты). Опыт автоматизации выкатки моделей в прод. Опыт внедрения и развертывания компонентов на инфраструктуре (понимание Kubernetes, CI/CD). Что готовы предложить Роль с реальным влиянием. Вы не просто сопровождаете готовое решение, а участвуете в формировании архитектуры платформы на этапе её активного роста. Уникальный опыт работы с федеративным обучением. Сбалансированные задачи. Мы не требуем быть гуру DevOps, достаточно базового понимания (K8s, CI/CD, observability), чтобы эффективно взаимодействовать с инфраструктурой и доращивать компетенции в процессе. Система мотивации: фиксированный ежемесячный оклад + годовой бонус (10% от годового дохода, завязан на KPI/SLA). Оформление по ТК РФ. Компания входит в реестр аккредитованных ИТ-компаний. Удаленный формат работы. Офис расположен в г. Москва. ДМС со стоматологией (с 1 рабочего дня + полис путешественника). Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит – 25 тыс. рублей в год) – в том числе, распространяется на детей. Дополнительные дни к ежегодному отпуску (всего 31 день в году). Современное оборудование (техника Windows, Lenovo ThinkPad). Как мы проводим собеседования 30 минут – общение с рекрутером (Я.Телемост, видео встреча). Знакомство, проверка базового соответствия, рассказ о компании и проекте подробнее. 60 минут – техническое интервью (Я.Телемост, видео встреча). Обсуждение вашего опыта, подходов к решению задач, глубокое погружение в экспертизу. 60 минут – встреча с Head of Data Platform (опционально). Проверка документов 1-2 дня (анкета в электронном виде). Оффер, обсуждение даты выхода на работу. Мы стараемся как можно быстрее принимать решения!Похожие вакансии