Обязанности: Анализ задач заказчика (LLM, CV, recommender, classical ML и др.) и требований к качеству/скорости Проектирование целевой архитектуры ML‑решения с учетом ограничений инфраструктуры и продуктов Взаимодействие с ML‑командами заказчика Анализ задач заказчика (LLM, CV, recommender, classical ML и др.) и требований к качеству/скорости Выбор и обоснование стека: фреймворки (PyTorch, TensorFlow и др.), библиотеки, runtime, форматы моделей, схемы шардирования/параллелизма Определение требований к ресурсам (число GPU, тип/объем памяти, сеть, хранилище) Решение проблем на стыке GPU Граус и прикладных бизнес‑задач Разработка рекомендаций по конфигурации моделей (batch size, quantization, pipeline‑параллелизм и др.) для достижения SLA по задержке и пропускной Участие в настройке мониторинга метрик ML‑сервисов: latency, throughput, quality, drift, resource utilization Подготовка эксплуатационных best practices и шаблонов архитектур для типовых сценариев Требования: Опыт проектирования Архитектуры ML‑решения Понимание GPU‑архитектуры, ограничений памяти, пропускной способности и влияния архитектуры модели на загрузку ресурсов Знание современных ML/Deep Learning‑подходов (LLM, CV, NLP, recommender и др.) Знание фреймворков: PyTorch, TensorFlow и др. Архитектура inference‑сервисов (on‑prem, Kubernetes, микросервисы, сервинговые фреймворки) Знание основ оптимизации моделей (quantization, pruning, distillation, tensor/ pipeline/ data parallelism) Опыт работы с Python, Jupyter/VS Code, ML‑фреймворки (PyTorch, TensorFlow и др.), системы оркестрации (Kubernetes), CI/CD, системы мониторинга и логирования, инструменты профилирования и оптимизации моделей
Похожие вакансии