Обязанности:
В Управление сетевой инфраструктуры ищем Главного эксперта платформы HPC Чем предстоит заниматься: Сбор потребностей у клиентов и составление подходящего сайзинга для частного облака AI HPC/GPU, выверка и составление спецификаций оборудования для построения частного облака AI HPC/GPU. Анализ требований проекта и разработка плана по инсталляции сетевого оборудования и серверов Тестирование прототипов, проведение PoC частного облака AI HPC/GPU, создание скриптов автоматизации настройки сети Infiniband. Подготовка аппаратных и программных ресурсов, установка и настройка коммутаторов Infiniband Инсталляция и настройка новых сетевых фабрик Infiniband, поддержка жизненного цикла сетевой инфраструктуры для AI, установка обновлений безопасности, интеграция GPU-серверов в существующую сетевую инфраструктуру организации и контроль процедур резервного копирования, настройка параметров коммутаторов для обеспечения оптимальной производительности и устойчивости сети, проведение DR-тестов Организация и документирование процедур по работе с сетью Infiniband, в том числе: составление инструкций и рабочих процедур для других членов команды, подготовка отчетов о выполненных работах, инцидентах и их решениях Непрерывный мониторинг состояния сети с использованием инструментов мониторинга Выявление узких мест и их устранение, оптимизация настроек Регулярный анализ логов, метрик и производительности сети Проведение стресс-тестов и оценка результатов для улучшения устойчивости сети Наши пожелания к кандидатам: Опыт сопровождения сети для частных облаков Опыт внедрения решений с использованием сетевого оборудования Infiniband для частных облаков HPC с использованием GPU Nvidia Глубокое понимание и практический опыт работы с IB (Infiniband), IPoIB (IP over Infiniband), RDMA (Remote Direct Memory Access) Знание основных сетевых протоколов, таких как TCP/IP, DNS, DHCP и других Опыт настройки и оптимизации коммутаторов Infiniband Умение работать с различными видами оборудования, включая коммутаторы, адаптеры и кабели Опыт выбора конфигураций, тестирования и вода в эксплуатацию сетевого оборудования Infiniband Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox. Понимание работы, тюнинг и настройка OpenSM (настройка фабрик Infiniband) Опыт автоматизации задач с помощью скриптов на Bash, Python или других языках Опыт работы с системами мониторинга и управления сетями (например, Mellanox UFM (Unified Fabric Manager) или Zabbix) Уверенное знание и умение конфигурировать серверные ОС, такие как Linux (предпочтительно RHEL, CentOS, Ubuntu) Понимание принципов работы сетей хранения данных Ethernet, в т.ч. RoCE Понимание принципов работы сетей ЦОД Что мы предлагаем: Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия Гибридный график работы Сложные и интересные задачи, современный стек технологий Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины