Обязанности: Разработка методологии и требования к данным, для обеспечения наблюдаемости Проводить анализ потоков данных и метрик в системах мониторинга и наблюдаемости; Проверять данные на полноту, корректность и соответствие требованиям, использовать подходы Data QA для обеспечения качества и достоверности данных; Детально разбирать инциденты и выявлять причины проблем с данными (исследование логов, трассировок, метрик, работа с ETL), документировать ошибки и вносить предложения по их устранению, вести структурированную базу знаний; Оформлять и поддерживать техническую документацию: схемы потоков, чек-листы, инструкции, описание архитектуры; Принимать участие во внедрении и поддержке стандартов и методик контроля качества данных (Data Reliability/Observability Best Practices); Участвовать в развитии и поддержке in-house платформы мониторинга: вносить улучшения, автоматизировать процессы контроля и проверки данных. Распространять и внедрять эти процессы и стандарты: делиться компетенциями, создавать обучающие материалы\инструкции, консультировать команды разработчиков и сопровождения; Требования: Знаете, как сделать отказоустойчивый масштабируемый сервис Имеете опыт написания и ревью технической документации Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev) Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов Имеете опыт внедрения observability-as-code и alerting-as-code Будет плюсом, если вы: Имеете практический опыт работы SRE Знаете, как сделать отказоустойчивый масштабируемый сервис Имеете опыт написания и ревью технической документации Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
Похожие вакансии