Обязанности:
Настоящий BigData пайплайн, который для расчёта метрик АБ тестов всего озона при помощи мощных кластеров Hadoop и Clickhouse обрабатывает десятки миллионов пользователей с миллиардами событий ежедневно. У нас много новых задач по его развитию, добавлению нового функционала и ускорению. Есть возможность применять и реализовывать крутые современные методики анализа данных и АБ экспериментов, результатами работы которых будет пользоваться вся компания: от рядовых аналитиков до топ-менеджеров. Что вам предстоит: Участвовать в роли BigData Engineer в проекте построения системы обработки и хранения разнородной информации из различных бизнес-юнитов компании на базе Hadoop (BigData DWH). Исследовать большой объем необработанных данных, накопленных в компании. Строить и оптимизировать нетривиальных ETL процессов обработки больших данных, участие в построении процессов потребления данных на всех этапах, их трансформации. Взаимодействовать с командой Data Scientist и совместная реализация стабильного расчета математический моделей. Поддерживать и модифицировать созданное решение, ответственность за доступность сервиса для внутренних потребителей и корректность предоставляемых для принятия решений данных. Что от вас ожидаем: Опыт разработки на Python 3 от 2-х лет + Знания ООП. Опыт работы с hadoop, HDFS + pyspark, знание инструментов разработки pipeline-ов обработки данных и их оркестрации (предпочтительно AirFlow). Базовые знания SQL. Знакомство с логическими моделями хранения данных, понимание зачем они нужны. Опыт разработĸи под Unix/Linux. Будет плюсом: Знание ClickHouse, NoSQL. Знание и опыт работы с технологиями, используемыми в нашем проеĸте: HBase, Apache Airflow, git, gitlab, ci\cd, http/https, grpc, rest api. Мы предлагаем: Динамично и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce. Свободу действий в принятии решений. Достойный уровень заработной платы. Профессиональную команду, которой мы гордимся. Возможность развиваться вместе с нашим бизнесом.