other

Главный эксперт платформы HPC

Более недели назад

З/П не указана

Город: Москва

Альфа-Банк

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Обязанности:

В Управление сетевой инфраструктуры ищем Главного эксперта платформы HPC Чем предстоит заниматься: Сбор потребностей у клиентов и составление подходящего сайзинга для частного облака AI HPC/GPU, выверка и составление спецификаций оборудования для построения частного облака AI HPC/GPU. Анализ требований проекта и разработка плана по инсталляции сетевого оборудования и серверов Тестирование прототипов, проведение PoC частного облака AI HPC/GPU, создание скриптов автоматизации настройки сети Infiniband. Подготовка аппаратных и программных ресурсов, установка и настройка коммутаторов Infiniband Инсталляция и настройка новых сетевых фабрик Infiniband, поддержка жизненного цикла сетевой инфраструктуры для AI, установка обновлений безопасности, интеграция GPU-серверов в существующую сетевую инфраструктуру организации и контроль процедур резервного копирования, настройка параметров коммутаторов для обеспечения оптимальной производительности и устойчивости сети, проведение DR-тестов Организация и документирование процедур по работе с сетью Infiniband, в том числе: составление инструкций и рабочих процедур для других членов команды, подготовка отчетов о выполненных работах, инцидентах и их решениях Непрерывный мониторинг состояния сети с использованием инструментов мониторинга Выявление узких мест и их устранение, оптимизация настроек Регулярный анализ логов, метрик и производительности сети Проведение стресс-тестов и оценка результатов для улучшения устойчивости сети Наши пожелания к кандидатам: Опыт сопровождения сети для частных облаков Опыт внедрения решений с использованием сетевого оборудования Infiniband для частных облаков HPC с использованием GPU Nvidia Глубокое понимание и практический опыт работы с IB (Infiniband), IPoIB (IP over Infiniband), RDMA (Remote Direct Memory Access) Знание основных сетевых протоколов, таких как TCP/IP, DNS, DHCP и других Опыт настройки и оптимизации коммутаторов Infiniband Умение работать с различными видами оборудования, включая коммутаторы, адаптеры и кабели Опыт выбора конфигураций, тестирования и вода в эксплуатацию сетевого оборудования Infiniband Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox. Понимание работы, тюнинг и настройка OpenSM (настройка фабрик Infiniband) Опыт автоматизации задач с помощью скриптов на Bash, Python или других языках Опыт работы с системами мониторинга и управления сетями (например, Mellanox UFM (Unified Fabric Manager) или Zabbix) Уверенное знание и умение конфигурировать серверные ОС, такие как Linux (предпочтительно RHEL, CentOS, Ubuntu) Понимание принципов работы сетей хранения данных Ethernet, в т.ч. RoCE Понимание принципов работы сетей ЦОД Что мы предлагаем: Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия Гибридный график работы Сложные и интересные задачи, современный стек технологий Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины

Имя не указано

Откликнуться
Разместить Резюме
Пожаловаться ID: 125339775

Похожие вакансии

Эксперт (внедрение платформы Форсайт)

Договорная

Москва

Норникель

Системный инженер HPC кластеров

Договорная

Москва

АВИТО ТЕХ

Методолог платформы Парус (главный специалист)

Договорная

Москва

ФЦНИВТ СНПО Элерон

Главный инженер (поддержка платформы Антифрод)

Договорная

Москва

Банк ВТБ (ПАО)

Главный бухгалтер оператора инвестиционной платформы

Договорная

Москва

ИНВЕСТТЕХ БУДУЩЕГО

Главный инженер проекта (аппаратные платформы)

Договорная

Москва

Аквариус, Группа компаний