Senior LLM Backend Engineer

9 июля 2026

З/П не указана

Город: Москва. Станции метро: Краснопресненская, Улица 1905 года

YADRO

Город: Москва. Станции метро: Краснопресненская, Улица 1905 года

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 3 лет

YADRO

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 3 лет

Обязанности:

Наша команда обеспечивает доступность нейросетей для тысяч пользователей одновременно. Мы сопровождаем и улучшаем production-платформу для хостинга LLM: ее надежность, производительность и масштабирование. Кроме того, мы создаём прикладные AI-продукты на базе LLM. Ищем опытного инженера, которому интересно работать и с платформенной частью, и с продуктовой. Чем предстоит заниматься: Инфраструктура и высоконагруженный инференс (Platform Engineering) Проектирование и поддержка GPU-кластера инференса (Nvidia) для десятков тысяч пользователей: скалирование, балансировка и приоритизация запросов, пользовательские лимиты Оптимизация производительности: кэширование, батчинг, etc Надежность и observability: обеспечение SLA и предотвращение регрессий Оценка и внедрение новых LLM Продуктовая разработка (LLM Application) Разработка AI-сервисов: AI Code Assistant (Co-Pilot), AI Chat, AI Code Review Проектирование пайплайнов автоматизаций: tool/function calling, обработка ошибок, управление контекстом/состоянием Интеграции: встраивание AI-сервисов в корпоративную среду (API, БД, legacy-системы) Исследования и прототипирование (R&D) Проведение экспериментов, создание MVP и выстраивание пути доведения до продакшена Исследование новых технологий и подходов для улучшения продуктов Мы ждем от будущего члена команды: Экспертиза в Python & Backend Опыт разработки на Python (5+ лет), знание стандартов: typing, асинхронность, паттерны проектирования Опыт создания высоконагруженных API (FastAPI или аналоги), работа с очередями, воркерами и фоновыми задачами Архитектура и надежность (Production) Опыт построения gateway/router, управление ключами, маршрутизация, пользовательские лимиты Опыт поддержки высоконагруженных сервисов в продакшене: стабильность контрактов, обработка ошибок Глубокие знания LLM & Inference Опыт работы с инструментами инференса (vLLM, SGLang, OpenAI API), понимание их внутренней работы Опыт настройки инференса под highload: latency/throughput, управление GPU-ресурсами Опыт построения решений с tool/function calling: MCP, guardrails, борьба с галлюцинациями Будем рады предложить вам: Конкурентный уровень заработной платы Гибридный формат работы, возможность полной удалённой работы Систему премирования за научные достижения, публикацию статей, регистрацию патентов и выступления на конференциях «Лекторий», в рамках которого приглашенные эксперты и наши специалисты на регулярной основе делятся профессиональным опытом из различных областей науки Внутреннюю программу поддержки инноваций Медицинскую страховку, включающую стоматологию, госпитализации, международные путешествия Льготное страхование членов семьи

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 155293616