Обязанности:
Строим инфраструктуру гибридного облака для искусственного интеллекта Альфа-Банка. Целью создания является гибкое управление и использование графических ускорителей (GPU) on-prem и публичных облаках, биллинг и мониторинг ресурсов, быстрый и удобный доступ к GPU по запросу команд. Чем предстоит заниматься: Сбор потребностей у клиентов и составление подходящего сайзинга для частного облака искусственного интеллекта AI HPC/GPU, выверка и составление спецификаций оборудования для построения частного облака AI HPC/GPU Тестирование прототипов, проведение PoC частного облака искусственного интеллекта AI HPC/GPU, создание скриптов автоматизации настройки кластеров AI HPC в парадигме IaC Инсталляция и настройка новых кластеров искусственного интеллекта с GPU Nvidia, поддержка жизненного цикла кластеров для искусственного интеллекта , установка обновлений безопасности, обновление продукта до новых версий, организация и контроль процедур резервного копирования Сбор метрик, прогнозирование нагрузки, участие в разработке биллинга для проектов искусственного интеллекта (обучение, инференс) Наши ожидания от кандидата: Опыт сопровождения частных облаков от 5 лет Опыт внедрения кластеров виртуализации, частных/публичных облаков HPC с использованием GPU Nvidia для AI/ML. Общие знания по направлению ML, в т.ч. процесс инференса, обучение моделей, средства для работы (например, Nvidia Triton Inference Server, Tensor-R, Jupiter Опыт выбора конфигураций, тестирования и вода в эксплуатацию серверного оборудования HPE, DELL и других серверных платформ x86 с GPU Nvidia (A100/H100 и других моделей), в т.ч. с применением технологии NVSwitch, RDMA over Infiniband Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox. Понимание работы, тюнинг и настройка OpenSM (настройка фабрик Infiniband) Навыки настройки Nvidia MIG, Time Slicing Опыт сопровождения ОС Linux (Ubuntu Server), Kubernetes от 3 лет. Опыт использования nvidia-device-plugin и библиотеки CUDA, Nvidia GPU-Operator Навыки использования Bash\Python (создание скриптов) Знание и применение Ansible/Terraform Понимание принципов работы систе хранения данных, в т.ч. Artifactory(HuhggingFace), NAS (NFS), Object Storage (S3). Опыт работы приветствуется Опыт работы с системами мониторинга виртуальных сред, K8S. Опыт работы c Nvidia DCGM, Zabbix, Prometheus приветствуется. Опыт создания/изменения своего оператора k8s приветствуется Что мы предлагаем взамен: Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде Полную удалёнку или гибрид на выбор, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге и сезонный коворкинг в Сочи Сложные и интересные задачи, современный стек технологий Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины