Обязанности: Проектирование и построение ML/AI инфраструктуры: • Создание и поддержка архитектуры для разработки, обучения и эксплуатации ИИ-моделей • Проектирование и внедрение MLOps-платформы для управления жизненным циклом ML-моделей • Настройка окружений для разработки, тестирования и продакшена ИИ-решений • Организация инфраструктуры для работы с LLM (Large Language Models) и векторными базами данных • Обеспечение возможности работы с GPU-ресурсами для обучения и инференса моделей CI/CD и автоматизация • Разработка и внедрение CI/CD пайплайнов для ИИ-решений и микросервисов • Автоматизация процессов сборки, тестирования и развертывания приложений • Настройка версионирования моделей, данных и артефактов • Создание инструментов для автоматизированного мониторинга качества моделей (model drift detection). • Подбор и настройка инструментов для автоматизации рутинных операций Контейнеризация и оркестрация: • Проектирование и внедрение решений на базе контейнерных окружений • Развертывание и администрирование Kubernetes-кластеров • Создание Helm-чартов для стандартизации развертывания приложений (опционально) • Настройка масштабирования сервисов в зависимости от событий и метрик производительности • Оптимизация использования ресурсов контейнеров Мониторинг и обеспечение надежности: • Внедрение систем мониторинга инфраструктуры и приложений (Prometheus, Grafana, ELK Stack) • Настройка алертинга и систем оповещения о критических событиях • Мониторинг производительности ИИ-моделей в продакшене • Обеспечение высокой доступности (HA) критичных сервисов • Разработка и тестирование процедур disaster recovery • Проведение анализа инцидентов и внедрение мер по их предотвращению Безопасность и соответствие требованиям: • Внедрение практик DevSecOps на всех этапах разработки • Обеспечение безопасности контейнеров и образов • Настройка сетевой безопасности и политик доступа • Аудит безопасности инфраструктуры и устранение уязвимостей • Обеспечение соответствия требованиям по защите данных Масштабирование и оптимизация: • Планирование и реализация стратегии масштабирования инфраструктуры • Оптимизация использования вычислительных ресурсов и затрат на облачную инфраструктуру • Проведение нагрузочного тестирования и capacity planning • Помощь в оптимизации производительности приложений и баз данных • Внедрение кэширования и CDN для ускорения работы сервисов Стандартизация и документирование: • Разработка и внедрение стандартов DevOps-практик для команды • Создание и поддержка Infrastructure as Code (IaC) с использованием Terraform, Kustomization, Helm, • Документирование архитектуры, процессов и процедур • Создание runbook'ов для типовых операционных задач • Разработка best practices для разработчиков по работе с инфраструктурой Взаимодействие и менторинг: • Тесное сотрудничество с командами разработки (AI/ML Engineers, Data Engineers) • Консультирование разработчиков по вопросам инфраструктуры и деплоя • Участие в архитектурных сессиях и технических ревью • Обучение команды современным практикам взаимодействия с инфраструктурой • Организация knowledge sharing сессий Требования: Обязательные: • Контейнеризация и оркестрация: практический опыт администрирования Kubernetes (3+ года) • CI/CD: опыт построения пайплайнов в GitLab CI/CD, Jenkins, GitHub Actions или аналогах • Infrastructure as Code: уверенное владение Terraform, Helm, Kustomization • Облачные платформы: практический опыт работы с AWS, Azure, Yandex Cloud или аналогичными облачными провайдерами • Автоматизация: уверенное владение актуальными средствами автоматизации Bash, preHooks etc • Мониторинг: опыт настройки актуальных систем мониторинга (ELK\EFK\Loki, Grafana, OpenTelemetry, Prometheus etc) • Системное администрирование: глубокое знание Linux • Сетевые технологии: понимание TCP/IP, DNS, Load Balancing, Reverse Proxy. Так же плюсом будет знание BGP и Service Mesh • Версионирование: продвинутое владение Git, Git Flow • Базы данных: опыт администрирования Clickhouse, PostgreSQL, NoSQL KeyValue (Valkey, Dragonfly, Redis etc), , понимание репликации и backup-стратегий Желательно (будет плюсом): • MLOps: опыт работы с MLflow, Kubeflow, Airflow для ML-пайплайнов • Service Mesh: знание Istio, Linkerd • Безопасность: опыт работы с HashiCorp Vault, настройка RBAC, Network Policies • Observability: опыт с Jaeger, OpenTelemetry для distributed tracing • GitOps: знание ArgoCD, Flux • Serverless: опыт работы с AWS Lambda, Knative • GPU-инфраструктура: опыт настройки CUDA, nvidia-docker для ML-задач, NVIDIA Operator k8s • Векторные БД: опыт развертывания Qdrant, Milvus, Weaviate • Message Brokers: опыт работы с Kafka, RabbitMQ, NATS Условия: Офис находится : г. Москва, наб. Пресненская, д.10 (Москва-Сити); График работы: ОФИС пятидневная рабочая неделя с понедельника по пятницу , выходные: суббота, воскресенье; Период испытательного срока: 3 месяца; ДМС; Годовой бонус; Профессиональное обучение и развитие; Возможность реализовать свой потенциал и построить карьеру. Конкурентоспособный уровень заработной платы. Участие в интересных и масштабных проектах.
Похожие вакансии
Договорная
Москва. Станции метро: Площадь Революции, Театральная, Охотный ряд, Библиотека им.Ленина
KTS
От 250 000 до 340 000 руб.
Москва. Станции метро: Площадь Революции, Театральная, Охотный ряд, Библиотека им.Ленина
Selecty
Договорная
Москва. Станции метро: Площадь Революции, Театральная, Охотный ряд, Библиотека им.Ленина
Aston
Договорная
Москва. Станции метро: Площадь Революции, Театральная, Охотный ряд, Библиотека им.Ленина
Aston
Договорная
Москва. Станции метро: Площадь Революции, Театральная, Охотный ряд, Библиотека им.Ленина
Aston
Договорная
Москва. Станции метро: Площадь Революции, Театральная, Охотный ряд, Библиотека им.Ленина
Aston