Senior DevOps-инженер

27 апреля 2026

От 300 000 руб.

Город: Москва

Kinescope

Город: Москва

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Kinescope

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Обязанности:

Кто мы Kinescope — высоконагруженная видеоплатформа. Видеохостинг, трансляции, real-time коммуникации для бизнеса. Распределённая инфраструктура в нескольких ЦОД в РФ и глобально, сотни гигабит трафика. Зачем эта роль Инфраструктура работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но вокруг этого — дыры. Дежурств нет. Постмортемы не прижились. Алерты — фоновый шум, который все научились игнорировать. Об инцидентах узнаём от клиентов. Команда из трёх инженеров (DevOps, Linux, NetOps) и делает свою работу, но без лида каждый тянет в свою сторону. Нужен человек, который возьмёт эту команду, наведёт порядок в процессах и сам будет работать наравне — не из кресла руководителя, а из той же консоли. Что предстоит делать Это играющий тренер. Руками — всегда, не только на старте. Разница с обычным инженером — в том, что ты ещё и определяешь, куда команда движется. Алертинг и инциденты: Разобрать текущие алерты. Сейчас их сотни, большинство — мусор. Нужно выкинуть лишнее, переписать оставшиеся так, чтобы каждый алерт = конкретное действие Запустить incident management. Процесс описан, но не работает. Нужно его взять, адаптировать под реальность и начать по нему жить — самому быть IC на первых инцидентах Внедрить постмортемы. Не формальные отписки, а разборы, после которых что-то меняется SLO и мониторинг: Определить SLO/SLI для ключевых сервисов совместно с продуктом. Начать с 3-5 самых важных, не пытаться покрыть всё сразу Настроить дашборды и алерты по SLO в Grafana Внедрить error budget — чтобы было понятно, когда можно катить фичи, а когда пора чинить Дежурства и реагирование: Построить on-call. Или обосновать, почему автоматика лучше — но тогда эту автоматику и сделать Написать runbook'и для типовых инцидентов. Первые — самому, потом научить команду Инфраструктура: Capacity planning — сейчас это «кажется, скоро кончится место». Нужны цифры и прогнозы Развивать IaC: code review Ansible-ролей, стандарты, тестирование. 100+ ролей уже есть, но качество разное Закрывать техдолг системно: приоритизировать, планировать, делать — а не героически в выходные Команда: Распределять задачи, растить людей, закрывать пробелы Не «менеджерить», а работать вместе — показывать как, разбирать сложные кейсы, делать code review AI — не хайп, а инструмент Это важно, поэтому отдельным блоком. Мы работаем в Cursor. Не только для написания кода — для проработки задач, системного администрирования, анализа инцидентов, документации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах. Для нас AI — это не «поиграться с ChatGPT». Это способ убрать рутину: написание runbook'ов, анализ логов, первичная диагностика, документирование. Ты остаёшься инженером, который думает и принимает решения — но рутину отдаёшь. Если считаешь, что «настоящий инженер всё делает сам» — нам не по пути. Если видишь в AI способ делать больше за то же время — поговорим. Чего мы ждём Опыт построения процессов — incident management, on-call, постмортемы. Не «читал книгу Google SRE», а реально запускал и поддерживал Опыт работы с SLO/SLI/error budget в продакшене Руководство инфраструктурной или SRE-командой (3+ человек). Не «был тимлидом на бумаге», а реально распределял работу, растил людей, нанимал Linux, сети, системы хранения — на уровне «разберусь в проблеме и приму решение», а не только «поставлю задачу» Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование алертинга, который работает IaC (Ansible или аналоги) — code review, стандарты, понимание как это должно быть устроено CI/CD — пайплайны, стратегии деплоя, rollback Работа с AI-инструментами — Cursor, Claude, Copilot, что угодно. Главное — реально используешь, а не «пробовал один раз» Будет плюсом Опыт с bare-metal и on-premise (не только облака) Видео/стриминг/CDN — понимание специфики Распределённая инфраструктура (мульти-ЦОД) FinOps — оптимизация затрат на инфраструктуру Что у нас "под капотом" ~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki PostgreSQL, ClickHouse, Ceph, NATS Bare-metal + облака (Yandex Cloud, VK Cloud, Selectel), ЦОД в 4 регионах Собственная CDN Команда: 3 инженера (DevOps, Linux, Ops) + DBA + инженер по хранилищам Условия Удалённая работа Нет бюрократии, микроменеджмента и трекинга часов Гибкие коммерческие условия — можно договариваться Что НЕ ищем Руководителя, который будет «выстраивать процессы» из кабинета. Тут надо работать «Классического DevOps», который настроит Jenkins и напишет Dockerfile Того, кто считает, что «у нас всегда так работало» — это аргумент Того, для кого AI — это хайп, который пройдёт !!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваются

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 152667339