Обязанности:
МТТЕХ - центр разработки Московского транспорта.Мы создаём ИТ-решения, которыми ежедневно пользуются миллионы пассажиров: от оплаты и планирования маршрутов до беспилотного трамвая Наш технологический стек: S3 / S3-compatible storage Trino Parquet Superset, Grafana Оркестрация (Airflow / Argo Workflows) Интеграция с системами телеметрии автономного транспорта Что предстоит делать: Проектировать и развивать Data Lake / DWH с нуля или через серьёзный рефакторинг Строить и сопровождать ETL/ELT-процессы Разрабатывать стандарты построения пайплайнов Внедрять практики Data Quality и обеспечивать целостность данных Оркестрировать и оптимизировать пайплайны Работать с большими объёмами данных (5000+ Тб масштаб) Оптимизировать аналитические запросы и производительность хранения Принимать архитектурные решения и понимать их trade-offs Требования: 5+ лет в Data Engineering Опыт проектирования DWH / Data Lake Опыт администрирования Hadoop: Spark/HDFS/Airflow/Hive Продвинутый SQL Опыт построения ETL/ELT-процессов Работа с S3 или S3-compatible storage Понимание distributed storage и columnar форматов (Parquet) Опыт оптимизации аналитических запросов Работа с большими объёмами данных (TB/PB scale) Будет плюсом: Trino / Presto Lakehouse-подход (Iceberg / Delta / Hudi) Внедрение Data Quality framework Опыт построения data-platform как продукта Работа у нас это: Забота о здоровье без лишней бюрократии (комфортный пакет ДМС) Энергия, которая не заканчивается на дейликах (компенсация спорта) Рабочий день начинается с завтрака за кофе (компенсация питания) Дорога до офиса и обратно без лишних трат (компенсация проезда на пассажирском транспорте) Дополнительные дни для перезагрузки (5 day-off в год) Аккредитованная ИТ-компанияПохожие вакансии