Обязанности:
Авито сегодня – около 13 000 Rack/OEM серверов, окружающая их сетевая инфраструктура в топологии CLOS, k8s, DbaaS, PaaS, кластера GPU и много других функций. Ежегодно мы прирастаем тысячами новых “железок”. Все они сейчас живут в арендованных Дата центрах и в будущем у нас будут и свои ЦОДы. Внутри кластера Core Infrastructure есть новый Юнит Hardware – он отвечает за все, что связано с работой серверов и должен предоставлять это как сервис. Наши ключевые клиенты: Юнит k8s, команда управляющая более чем 6000 серверов на которых живет одноименная система. Юнит DBA и IaaS, кто предоставляет Managed сервисы всему Авито (базы данных, виртуалки, S3 и т.д.) Горизонтальные направления Search, Recommendations, Data Warehouse, Analytics. Каждый из них требует свой тип серверов и подход к работе с ними. Команда от 15 человек, в подчинении 3 тимлида – DC, DC R&D, Development Что предстоит: С нуля сформировать из трех разрозненных команд единое направление HWaaS Полноценно обеспечить внедрение процесса сборки своих серверов и успешное их внедрение в жизненный цикл Авито Спроектировать backend систему управления жизненным циклом Отвечать за развитие фундаментального слоя серверной инфраструктуры Авито и практики управления им Отвечать за долгосрочные планы развития инфраструктуры, её целостность, доступность и отказоустойчивость. Мы целимся в постоянные 99,9% доступности и выше Отвечать за Capacity планирование всех ресурсов (стойки, железо, инженеры) в ЦОДах и их утилизацию Быть ответственным за стратегию направления в горизонте нескольких лет Отвечать за бюджет и его качественное планирование, прогнозирование и исполнение Мы ожидаем, что ты: Имеешь опыт управления командами и менеджерами. Знаешь как сформировать команду, мотивировать и развивать сотрудников Умеешь ставить сильные, долгосрочные цели и достигать их вместе с командой Хорошо разбираешься в тонкостях работы инфраструктуры Понимаешь и следишь за трендами развития решений, не боишься пробовать новое и упразднять неактуальное Имеешь опыт работы с серверами/сетью/платформенными решениями Знаешь и понимаешь как формируются метрики качества сервиса, доступность и отказоустойчивость и как ими эффективно управлять