Обязанности:
Для нас привлекательны следующие знания и опыт:⠀ Опыт администрирования и эксплуатации кластеров Kubernetes (облачные и локальные решения). Владение языком программирования Python и основными платформами ML Ops (Kubeflow, Airflow). Навыки построения и поддержки процессов непрерывной интеграции и доставки (CI/CD) с использованием Jenkins. Опыт интеграции и работы с распределенными системами хранения и векторными базами данных (например, Weaviate, Qdrant, PGVector). Экспертиза в области мониторинга, алертинга и централизованного логирования (стек Prometheus/Grafana, ELK, OpenTelemetry). Базовое понимание архитектуры и принципов работы больших языковых моделей (LLM), генеративного ИИ и Retrieval-Augmented Generation (RAG) систем.⠀ Задачи, которые предстоит выполнять:⠀ Развертывание, настройка и техническая поддержка платформы для работы с LLM в среде Kubernetes (с применением Helm, Terraform, операторов K8s). Проектирование и поддержка CI/CD-контуров для машинно-обучаемых сервисов, включая пайплайны обучения, инференса и обработки данных. Автоматизация и оркестрация рабочих процессов машинного обучения в среде Kubeflow. Внедрение системы мониторинга для ML-моделей в продакшне, отслеживающей метрики производительности (latency), качества (drift) и экономической эффективности (cost). Организация и управление пайплайнами данных для задач обучения и инференса, включая работу с потоковыми данными (Kafka), озерами данных, объектными хранилищами (S3) и векторными БД. Оптимизация загрузки и управления ресурсами GPU-кластеров, включая настройку распределенного обучения. Обеспечение информационной безопасности и соответствия стандартам: реализация изоляции окружений, управления доступом (RBAC) и полного аудита действий.Похожие вакансии