other

Data analytics (GigaSearch)

Более недели назад

З/П не указана

Город: Москва

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 1 года

Мы — команда GigaSearch, создаём поисковый сервис, который отвечает на запросы пользователей на естественном языке. Наша миссия: дать GigaChat доступ к актуальной информации, чтобы пользователи получали точные ответы на любые вопросы — включая самые свежие новости и события. Инженер данных в нашей команде — это человек, который строит “платформу качества”: собирает и сводит данные из разных источников, делает витрины и датасеты для оценки, автоматизирует пайплайны и мониторинг, в том числе — в реальном времени, чтобы деградации находились быстрее, чем их увидят пользователи. Если вам интересно работать на стыке data engineering, продуктовой аналитики и поиска — и вы хотите не просто “переливать данные”, а делать инфраструктуру, на которой стоит культура качества AI-продукта — приходите к нам. Над чем мы работаем: единая модель данных для оценки качества ретривера и итогового ответа LLM на продакшн-трафике медальонная архитектура в ClickHouse: bronze (raw) → silver (очищено/нормализовано) → gold (витрины под метрики и мониторинг) автоматические пайплайны оценки и переоценки качества (включая LLM-as-a-judge) и их воспроизводимость витрины и датасеты для оффлайн/онлайн-оценки, A/B-экспериментов и расследований деградаций мониторинг качества данных на потоке: свежесть, полнота, задержки, аномалии, регрессии. Обязанности проектировать и поддерживать ELT/ETL пайплайны в Airflow (надёжность, идемпотентность, ретраи, backfill, SLA) организовать ingestion между БД с понятными контрактами данных развивать медальонные слои в ClickHouse: raw-таблицы, нормализация/обогащение, gold-витрины под метрики качества поиска делать аналитику “почти real-time” в ClickHouse: инкрементальные расчёты, материализованные представления, предагрегации, оптимизация задержек end-to-end разрабатывать витрины и агрегаты: партиционирование, ключи сортировки, управление TTL, контроль стоимости запросов и времени ответа. Требования опыт в analytics engineering от 3 лет (уровень middle+ / senior) очень сильный SQL и практический опыт построения витрин (ClickHouse и/или PostgreSQL; оконные функции, сложные агрегации, оптимизация) уверенный Python для задач ETL/ELT (парсинг, валидация, интеграции, утилиты для пайплайнов) опыт с Airflow в проде (DAG design, зависимости, эксплуатация, backfill) хорошее понимание архитектуры данных и жизненного цикла датасетов (raw → нормализация → витрины), умение делать решения поддерживаемыми. Будет плюсом dbt или аналогичный подход к управлению SQL-моделями (тесты, документация, зависимости) опыт с логами поиска/клика (показы выдачи, клики, сессии, dwell time) и склейкой событий опыт построения мониторинга/дашбордов (Grafana / Superset / DataLens) опыт с Kafka/очередями, Kubernetes, Terraform/Ansible, CI/CD для data-проекта знакомство с OpenSearch/Elastic как компонентом поисковой системы. Условия комфортный современный офис рядом с м. Кутузовская гибридный формат работы (на испытательном сроке посещаем офис, далее 2-3 дня в неделю - работаем из дома). ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха система обучения для профессионального и карьерного развития расширенный полис ДМС с первого дня работы и страхование для семьи программа ипотеки для сотрудников бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Показать контакты

Имя не указано

Пожаловаться ID: 151685956

Похожие вакансии

Data analytics (GigaSearch)

Договорная

Москва

СБЕР

Data аналитик (GigaData Analytics)

Договорная

Москва

СБЕР

Data аналитик (GigaData Analytics)

Договорная

Москва

СБЕР

Data аналитик (GigaData Analytics)

Договорная

Москва

СБЕР

Data аналитик (GigaData Analytics)

Договорная

Москва

СБЕР

Data Analytics specialist (Офис, Санкт-Петербург)

Договорная

Москва

ИЦ АЙ-ТЕКО