Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу. Обязанности: Разработка и оптимизация инфраструктуры инференса LLM‑моделей. Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов Помощь в capacity-планировании командам-заказчикам Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT‑LLM). Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU‑нагрузок Ключевые знания и навыки: Глубокая экспертиза в архитектуре и инференсе больших языковых моделей. Понимание устройства моделей (трансформеры, BERT, LLM и т.д.) Опыт построения высокопроизводительных LLM‑сервисов с использованием vLLM, TensorRT‑LLM/FasterTransformer/Triton Inference Server/etc. Знание методов оптимизации и ускорения LLM‑инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding. Понимание нюансов распределенных систем и GPU‑коммуникации (NCCL, MPI, RDMA, InfiniBand). Опыт в управлении кластером для LLM‑нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе. Уверенное владение Python Знание инструментов профилирования GPU (nvidia‑smi, Nsight, TensorRT Profiler). Опыт участия в архитектурном дизайне крупных AI‑платформ Опыт управления командой инженеров. Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей. Будет преимуществом: Опыт построения LLM‑сервисов с потоковой генерацией токенов (streaming inference). Знание особенностей служебных компонентов LLM‑пайплайна: токенизаторы, KV‑кэш, контекстное окно. Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности. Участие в проектах по оптимизации инфраструктуры для LLM‑инференса на уровне платформы (multi‑tenant LLM serving, dynamic batching). Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG‑решений и не только. Что предлагаем мы: Возможность выбора формата работы: гибрид, удаленно или из офиса Гибкий график Корпоративный ДМС со стоматологией c первого месяца работы Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер Кофе в кофемашинах, чай, печенье, фрукты на кухне Электронная корпоративная библиотека Молодой, профессиональный и дружный коллектив Возможность профессионального развития, обучения за счет компании, участия в конференциях Достойный уровень заработной платы Совместную постановку целей и индивидуальный план развития
Похожие вакансии