RL Разработчик

Более недели назад

От 250 000 до 250 000 руб.

Город: Москва. Станции метро: Новодачная, Физтех

МФТИ

Город: Москва. Станции метро: Новодачная, Физтех

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

МФТИ

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Обязанности: Должностные обязанности: Разработка алгоритмов RL, в т.ч.:- проектирование, реализация и оптимизация алгоритмов обучения с подкреплением (PPO, SAC, TD3 и др.)- создание обучающих пайплайнов для online и offline RL: генерация траекторий, формирование и анализ Replay Buffer- разработка инструментов мониторинга экспериментов, анализа поведения политик и управления качеством данных. Работа с симуляцией (IsaacSim):- построение физически реалистичных симуляций объектов и манипуляторов, включая настройку параметров массы, трения, инерции, контактов- генерация обучающих данных с использованием домен-рандомизации и крупных наборов 3D-моделей.- разработка и интеграция кастомных симуляционных сред для RL-обучения. Работа с реальными роботами:- адаптация и отладка политик на реальном манипуляторе- дообучение моделей на реальных данных (Sim2Real adaptation)- анализ ошибок и повышение устойчивости поведения при переносе «симуляция-реальность». Интеграция управления:- реализация архитектуры «RL+классическое управление» (PID, MPC, LQR и др.)- интеграция компонентов в ROS-пайплайны и системные модули управления роботом. Инженерные задачи и разработка инструментов:- написание чистого, поддерживаемого кода (ООП, документация, тестирование)- участие в разработке архитектуры внутренних библиотек и инфраструктуры- оптимизация вычислительных пайплайнов, ускорение симуляционных циклов. Требования: Обязательное наличие оконченного высшего технического образования. Уверенное владение языком Python, желательный опыт промышленной разработки Опыт работы с фреймворком PyTorch Наличие практического опыта разработки алгоритмов RL (PPO, SAC, TD3 и др.) Опыт подготовки данных для Offline RL Базовые навыки компьютерного зрения в задачах управления и манипуляции (работа с RGB/RGB-D, выделение объектов, простые модели восприятия) Понимание кинематики и динамики манипуляторов Опыт разработки собственных сред или сценариев в симуляции. Условия: работа в ведущем техническом вузе страны, в городе Долгопрудный (рядом со станцией Новодачная МЦД-1 или 15 минут от метро Алтуфьево, Ховрино, Физтех); оформление в соответствии с ТК РФ; возможность бесплатного посещения бассейна и тренажерного зала; в соответствии с ТК РФ работники сферы образования обязаны предоставить справку о наличии (отсутствии) судимости и (или) факта уголовного преследования, срок изготовления которой может быть до 30 дней, просим заранее позаботиться о её получении.

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 148208720