Создаем поисковый сервис для ответов на запросы пользователей на естественном языке. Предоставляем GigaChat и другим LLM доступ к актуальной информации из интернета, чтобы пользователи получали точные и свежие ответы на разные вопросы. Предстоит развивать пайплайны наполнения хранилища мультимодальными данными, строить контур подготовки данных для векторного и полнотекстового поиска, работать с большими объемами данных и высоконагруженной архитектурой. Задача технически сложная и интересная: важны надежность, масштабируемость, качество данных, свежесть индекса и производительность. Ценим проактивность, инженерное мышление и желание развиваться.Обязанности проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA) внедрять CI/CD, тестирование и observability для data pipelines. работать вместе с ML-инженерами, backend-разработчиками и аналитиками над улучшением качества поиска. Требования 3+ лет опыта в роли Data Engineer / ML Engineer / Data Platform Engineer. продвинутый Python и SQL практический опыт с Airflow и Spark/PySpark в production опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных: от 100 TB до PB+ уверенное понимание принципов распределенного хранения данных и распределенных вычислений опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage опыт построения или развития высоконагруженных платформ обработки данных умение проектировать Data LakeHouse / Data Management Platform опыт работы с Kubernetes и S3-compatible storage понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction опыт построения мониторинга, алертов и CI/CD для пайплайнов данных. Будет плюсом опыт работы с поисковыми движками: ElasticSearch, OpenSearch, Vespa опыт работы с Cassandra или другими distributed NoSQL-хранилищами опыт работы с Kafka или другими брокерами событий понимание задач vector search, embeddings, ANN/HNSW, hybrid search опыт работы с GPU-инференсом моделей, PyTorch опыт работы с облачными платформами: AWS, Yandex Cloud, SberCloud опыт с observability stack: Prometheus, Grafana. Условия стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты комфортный современный офис рядом с м.Кутузовская гибридный формат работы: встречаемся очно в офисе 1 раз в неделю корпоративный спортзал и зоны отдыха уникальная система обучения Сбера для профессионального и карьерного развития программа адаптации и помощь руководителя на старте расширенный ДМС и льготное страхование семьи гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера корпоративная пенсионная программа
Похожие вакансии