Обязанности:
Создание и поддержка аналитических хранилищ; Разработка и поддержка полного цикла ETL/ELT; Оптимизация хранилищ и поддержка в построении аналитических запросов со стороны инженерии;
Требования:
Опыт руководства коллективом дата-инженеров не менее 3 лет Глубокие знания SQL:Вы знаете, что такое физический и логический JOIN; Умеете применять план запроса; Знакомы с индексами, партиционированием, шардированием, сжатием данных, тюнингом параметров СУБД, знаете про распределенные таблицы, параллельные вычисления, понимаете форматы ORC/parquet; Использовали оконные функции, ROLLUP; Имеете опыт работы с одной или несколькими аналитическими СУБД или платформами (Greenplum, Clickhouse, Vertica, Hive, Redshift или похожими); Понимание процессов Data-инженерии:Вы знаете, чем отличаются ETL, ELT, CDC и работали хотя бы с одним из этих data pipeline. Понимаете OLTP и OLAP, Работали с Data Warehouse и Data Lake; Опыт разработки на языке программирования Python или Java:Использовали в работе или знаете про Apache Airflow/Apache NiFi (иные похожие инструменты). Вам известны инструменты Pentaho Data Integration (PDI) или Hop (иные похожие инструменты); Вы умеете проводить обработку структурированных данных (XML, JSON, YAML, CSV/TSV, иных). Сможете обработать не структурированные или слабо структурированные данные (электронные письма, логи, HTML-страницы, PDF документы, иные похожие виды данных) и извлечь из них требуемые сведения Дополнительно: Имеете навыки работы с ОС Linux Работали с GITБ Имеете опыт работы с архитектурой Data Vault Непосредственно работали с Postgres и Clickhouse Работали с Hadoop и/или S3 Понимаете, что документирование - залог успеха любой data-системы Знаете про XML, XSL, XSLT, XSD, XPath Умеете "чинить" невалидные данныеПохожие вакансии