Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.Мы делаем приложения на базе Единого Хранилища ДанныхОсновной функционал: Монетизация данных- сбор данных из разных источников, в первую очередь из "озера данных" и Единого Хранилища данных- анализ и поиск закономерностей в разнообразных данных- построение моделей, основанных на данных- автоматизация работы. Обязанности: • консультирование заказчика с целью выбора инструментария Big Data экосистемы;• администрирование инструментария Big Data экосистемы;• внедрение ML-моделей в рамках MLOps;• оптимизация ETL-процедур обработки информационных массивов;• миграция ETL-процедур обработки информационных массивов и соответствующих моделей машинного обучения на целевые инструменты Big Data экосистемы;• доработка/написание CI/CD-пайплайнов;• участие в развитие Big Data экосистемы; Требования: • высшее техническое образование• знания по проектированию Хранилища данных• современные тенденции и технологии Big Data• знания и практические навыки написания SQL запросов, опыт оптимизации запросов• опыт работы с одной из аналитических или реляционных СУБД Oracle, Greenplum, Clickhouse, PostgreSQL, Postgres Pro или опыт работы со стеком Big Data (Hadoop/spark/hive) от 3-х лет; • опыт работы с элементами современной Big Data экосистемы в качестве администратора, аналитика данных или специалиста по исследованию данных; • навык работы со средствами версионного контроля;• знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD;Наш стек:• Кластеризация: Apache Hadoop (HDP, CDP)• Контейнеризация: Docker Swarm, Kubernetes• CI/CD: Ansible, Jenkins, Gitlab• Технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala• IDE: Apache Zeppelin, JupyterLab., IntelliJ IDEA, VSCode• ETL: IPC, Airflow• Языки программирования: Python, Scala. Компенсация релокации Гибридный график: 50% - офис, 50% - удаленный режим
Договорная
Санкт-Петербург. Станции метро: Достоевская, Владимирская
Газпром проектирование