other

CV engineer (Gigachat)

Более недели назад

З/П не указана

Город: Москва

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России. Обязанности Основные задачи будут лежать в следующих сферах: Инфраструктура: поддержка данных для обучения VLM на кластере YTSaurus. построение удобной платформы для эффективного анализа/обработки данных (фильтрация, дедупликация и пр.) автоматизация процессов через Airflow. RnD: поиск и синтез данных для обучения VLM (есть несколько областей: OCR/Charts&Tables/Grounding&Counting/General и тд). исследование пайплайнов по созданию чистых и разнообразных датасетов (на примере FineVision). Эксперименты и метрики: Обучение VLM на подготовленных данных. проведение исследований релевантных intrain метрик, бенчмарков для замера качества. Требования Опыт построения дата пайплайнов и data quality процессов Опыт работы в production ml команде (большие нагрузки как преимущество) Понимание задач CV и современных подходов в больших языковых моделях Опыт решения задач, связанных с влиянием данных на качество VLM Практический опыт работы с VLM. Условия комфортный современный офис рядом с м. Кутузовская возможность выбрать удобный график – офис/гибрид/удаленка (в РФ) годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа ипотека для сотрудников по дисконтной прогамме бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Показать контакты

Имя не указано

Пожаловаться ID: 153844750

Похожие вакансии

NLP engineer (GigaChat)

Договорная

Москва

SberTech

CV/ML-Engineer (MedTech)

От 200 000 руб.

Москва

Дартс рекрутинг сервисез

DL Engineer (GigaChat TTS)

Договорная

Москва

СБЕР

ML Engineer (Multimodal GigaChat Data)

Договорная

Москва

СБЕР

Senior RL - Engineer (GigaChat Vision)

Договорная

Москва

СБЕР

Deep Learning/CUDA Engineer (GigaChat)

Договорная

Москва

СБЕР