Обязанности:
ArtWorkout — мобильное приложение (iOS + Android), учим рисовать через интерактивные уроки с оценкой работы в реальном времени. Растём через контент в соцсетях: у нас большая команда креаторов, и это основной источник трафика. Команда: ~30 человек в продукте + 200+ креаторов. Формат: полностью удалённо. Культура: мало митингов, общаемся асинхронно, без жёсткой иерархии, каждый много решает сам. Контекст найма За несколько лет инфра выросла: основной бэк (NestJS), нотификации, аналитика, мониторинг. Всё это крутится на серверах в Hetzner Cloud, перед ними Cloudflare (DNS, LB, CDN). Инфраструктура описана в Pulumi на TypeScript (идеологически похоже на Terraform), деплой — GitHub Actions плюс bash-скрипты. Ищем человека, который со временем возьмёт на себя IaC, пайплайны, мониторинг и инциденты, закроет накопившиеся TODO по инфре и поможет стеку постепенно эволюционировать. Работать будешь вместе с другими DevOps и разработчиками. Первые 3 месяца Разобраться в текущей инфре: IaC, скрипты деплоя, серверная топология, мониторинг. Начать переработку CI/CD: навести порядок, унифицировать. Доработать observability: закрыть дыры в дашбордах и алертах. Первые 6 месяцев Полностью владеешь CI/CD: пайплайны, canary, откаты — всё стабильно. Observability: дашборды и алерты по всем критичным сервисам, больше покрытия трейсами. План восстановления: проверенная процедура подъёма Postgres и файлов из бэкапа. Подчищен legacy: выпилены мусорные сервисы и неиспользуемые DNS-записи, старый сервер api приведён к нормальному виду. Предложен и согласован план развития инфры на год вперёд (k8s, Nomad или остаёмся на Compose — с обоснованием). Чем предстоит заниматься Поддержка и развитие IaC в Hetzner. Настройка Edge: Cloudflare, DNS, Load Balancer, правила, SSL/TLS. CI/CD: GitHub Actions + bash + Docker Compose + k8s. Observability: ClickStack, VictoriaMetrics + Grafana, OpenTelemetry Collector на всех серверах. Эксплуатация баз: PostgreSQL (+ pgBouncer), Redis, ClickHouse. Бэкапы и восстановление: часть сервисов требует обновления процессов бэкапа. Что мы ждём от тебя Must have: 2+ года в DevOps / SRE / системном администрировании на проде. Уверенно работаешь с Linux на проде (Ubuntu / Debian), хорошо знаешь bash. Docker и Docker Compose на проде: многоэтапные сборки, проверки здоровья контейнеров, тома, сети, ограничения по ресурсам. Опыт работы с IaC: Например, Terraform или Pulumi на проде. Python на уровне продовых утилит и вспомогательных скриптов для CI. TypeScript хотя бы чтобы читать инфраструктурный код и править его с подсказками. CI/CD: GitHub Actions, GitLab CI или Jenkins. Опыт работы с любым облаком на проде (AWS, GCP, Azure, Hetzner, DO, Yandex), конкретный провайдер не важен. Настройка Edge: DNS, балансировщики, проксирование / CDN, SSL/TLS. Базы данных: PostgreSQL,redi, бэкапы, восстановление, миграции, понимаешь, как работает пул соединений. Мониторинг и логи: Prometheus или VictoriaMetrics + Grafana, плюс любое решение для логов (ELK, Loki, VictoriaLogs). Дашборды и алерты пишешь сам. Хранение секретов (1Password, Vault, SOPS, SSM — любое), базовая защита Linux, понимаешь принцип минимальных прав доступа. Английский B1+ (техническая переписка, документация). Будет плюсом: Опыт миграции с bash-деплоев на Ansible, Nomad или k8s. Pulumi на TypeScript (наш IaC). Hetzner Cloud. Kubernetes хотя бы на уровне пользователя: deployment, service, ingress, RBAC, Helm. Сейчас k8s у нас нет, но возможна миграция. ClickHouse в проде. Airflow (эксплуатация, без написания DAG'ов). Брокеры сообщений: RabbitMQ, Kafka. Caddy как gateway / LB. HyperDX / ClickStack или другая система мониторинга на базе ClickHouse. OpenTelemetry Collector, Tempo / Jaeger. Cloudflare на продвинутом уровне: Workers, Tunnels (cloudflared), Zero Trust Access. A/B tests, GrowthBook. Условия Полностью удалённо. Оформление как ИП. Зарплата: $2 000 – $4 000 в месяц, по итогам интервью. Напрямую с фаундером и техлидами, минимум бюрократии. Возможность вырасти до Lead DevOps по мере роста команды и инфры. Этапы найма Анкета и небольшое тестовое (асинхронно). Скрининг с HR (~30 мин). Техническое интервью с техлидами (~30 мин), одним звонком: обмен вопросами: ты про нас, мы про тебя — Linux, Docker, IaC, CI/CD, observability, базовая безопасность; практическая задача: разбор куска нашего IaC-кода или мини-кейс. Оффер.Похожие вакансии