Обязанности:
Задачи, которые будут в твоих руках: Инфраструктура и платформа Развивать cloud-native инфраструктуру на AWS (EKS, RDS, MSK, S3 и смежные сервисы) Строить и поддерживать Internal Developer Platform: сервисные шаблоны, self-service инструменты, GitOps-процессы Управлять IaC-слоем (Terraform): стейт, модули, окружения (dev/staging/prod) Обеспечивать надёжность и SLA продакшн-систем — кредитный конвейер, платёжные интеграции, realtime-скоринг AI-инфраструктура (ключевое направление) Поддерживать и развивать инфраструктуру для AI/ML-рабочих нагрузок: деплой LLM, GPU-узлы, векторные БД Строить и обслуживать LLMOps/MLOps-пайплайны совместно с командой разработки Интегрировать AI-инструменты в операционные процессы команды Команда и процессы Руководить командой инфраструктуры: найм, развитие, 1-2-1, целеполагание Выстраивать и поддерживать процессы мониторинга, алертинга, инцидент-менеджмента Управлять CI/CD: скорость деплоя, надёжность пайплайна, rollback-стратегии Вести бюджет инфраструктуры, отвечать за FinOps: rightsizing, резервирование, waste-репорты Безопасность и соответствие Внедрять security-by-default: secrets management (Vault), network policies, RBAC, zero-trust Обеспечивать соответствие требованиям финансовых регуляторов (Индия/ Казахстан / Узбекистан) Проводить архитектурные ревью новых решений с позиции безопасности и надежности Вендоры и документация Управлять отношениями с облачными провайдерами и SaaS-вендорами Вести актуальную архитектурную документацию; поддерживать runbook-культуру в команде Что для этого нужно: 5+ лет в DevOps / инфраструктуре, из них 2+ года в роли тимлида или руководителя Уверенный Kubernetes: продакшн-эксплуатация, troubleshooting, безопасность кластера Опыт с AWS на уровне архитектора (EKS, RDS, MSK, VPC, IAM, CloudWatch) Infrastructure as Code: Terraform или Pulumi в продакшн-масштабе CI/CD: GitOps (ArgoCD / Flux), GitHub Actions / GitLab CI Понимание принципов Platform Engineering и опыт построения внутренних инструментов для разработчиков Наблюдаемость: OpenTelemetry, Prometheus, Grafana, централизованный logging (ELK / Loki) Безопасность: zero-trust, Vault, secrets rotation, сетевые политики Желательные Опыт деплоя и эксплуатации LLM-сервисов Опыт в финтехе, понимание требований к надёжности и compliance финансовых систем FinOps-практики: AWS Cost Explorer, Spot Instances, Savings Plans Личные качества Думает системно: видит инфраструктуру как продукт, а не набор серверов Умеет расставлять приоритеты в условиях неопределённости Открыт к AI-инструментам: использует Claude, AI-ассистенты и автоматизацию в ежедневной работе Хорошо коммуницирует технические решения на уровне бизнесаПохожие вакансии