other

LLM Evaluation инженер (Системы оценки качества AI)

Более недели назад

З/П не указана

Город: Москва. Станции метро: Римская, Площадь Ильича, Серп и Молот

Битрикс24

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Обязанности:

Мы формируем в компании AI Platform Team — которая отвечает за всю инфраструктуру AI: от выбора моделей до их продуктовой эксплуатации. Наша задача — дать продуктам объективную и воспроизводимую систему оценки LLM. Чтобы каждое решение — смена модели, обновление промпта, настройка RAG — принималось на основе метрик, а не интуиции. Нам важно, чтобы вы имели практический опыт построения систем оценки качества LLM/ML-моделей. Необходимо строить бенчмарки, управлять датасетами, внедрять human-in-the-loop процессы, настраивать observability-стек (Langfuse) и встраивать eval-пайплайны в CI/CD. Чтобы команды разработки видели чёткие цифры: точность, латентность, стоимость, регрессии. ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ: Проектирование и развитие системы оценки качества LLM и AI-функций (чат, генерация, RAG, агенты) для продуктов Битрикс24. Построение и поддержка бенчмарков: разработка сценариев, формирование и версионирование датасетов, подбор метрик для сравнения моделей и конфигураций. Подготовка, разметка и управление датасетами для оффлайн-оценки, включая human-in-the-loop процессы. Настройка автоматических прогонов бенчмарков в CI/CD, формирование и визуализация отчётов для команд разработки и продукта. Развитие observability-стека для LLM (Langfuse и другие инструменты): трассировка запросов, метрики качества, дашборды, алерты. Участие в улучшении и оптимизации процессов разработки AI-функций, внедрение data-driven подхода к принятию решений по моделям. Участие в ревью проектов, командной работе, внутренних митапах и обмене знаниями. ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА: Опыт работы с LLM и их API (OpenAI, Anthropic, GigaChat, локальные LLaMA/Qwen и др.), понимание их ограничений. Конкретный опыт работы с Langfuse (настройка трейсинга, eval-ранов, дашбордов, алертов). Навыки анализа логов и метрик, построения отчётов и визуализаций для технической и продуктовой аудитории. Понимание принципов статистики и экспериментального дизайна (гипотезы, выборки, значимость, интерпретация результатов). ТАКЖЕ ДЛЯ НАС ВАЖНО: Знание языка программирования Python. Практический опыт проектирования приложений и веб-сервисов либо внутренних инструментов для разработчиков/DS. Понимание принципов работы баз данных и систем хранения данных (для логов, датасетов, результатов экспериментов). Отличное знание и понимание жизненного цикла ПО, опыт работы с системами контроля версий и CI/CD. Уверенное знание сетевых технологий на уровне, необходимом для понимания работы распределённых сервисов и API. Базовое понимание веб-безопасности и приватности данных при работе с пользовательскими запросами и логами. Уверенное знание ООП и современных парадигм проектирования (SOLID, Clean Architecture). Готовность отстаивать своё мнение на основе данных и экспериментов и при этом оставаться открытым к аргументам команды. БУДЕТ ПЛЮСОМ: Опыт использования фреймворков для eval и оркестрации LLM (например, LangChain, LlamaIndex, LangGraph и т.п.). Знание принципов модульного тестирования, умение писать тесты (PyTest, PHPUnit и др.). Опыт работы в продуктовых командах, где решения по моделям принимались на основе количественных и качественных метрик. ЧТО МЫ ПРЕДЛАГАЕМ: Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде; Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру; Работа в компании, где принятие решений основано на данных и аналитике; Конкурентоспособная заработная плата, оформление по ТКРФ; Программы профессионального развития и обучения; ДМС со стоматологией после трех месяцев работы; Сервис психологической поддержки ЯСНО; Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

Показать контакты

Имя не указано

Пожаловаться ID: 151055519

Похожие вакансии

AI/LLM Engineer в GenAI Evaluation

Договорная

Москва. Станции метро: Римская, Площадь Ильича, Серп и Молот

HeadHunter

Руководитель аналитики метрик качества GigaChat (LLM Evaluation)

Договорная

Москва. Станции метро: Римская, Площадь Ильича, Серп и Молот

СБЕР

Руководитель аналитики метрик качества GigaChat (LLM Evaluation)

Договорная

Москва. Станции метро: Римская, Площадь Ильича, Серп и Молот

СБЕР

AI Engineer (LLM)

От 350 000 до 450 000 руб.

Москва. Станции метро: Римская, Площадь Ильича, Серп и Молот

Invista

AI Engineer (LLM)

Договорная

Москва. Станции метро: Римская, Площадь Ильича, Серп и Молот

Neoflex

LLM/RAG/AI Engineer

От 300 000 до 500 000 руб.

Москва. Станции метро: Римская, Площадь Ильича, Серп и Молот

Котик Алексей Александрович