Обязанности:
О компании: Амаркон — российская компания с 15-летним опытом работы на рынке информационных технологий. Мы специализируемся на разработке и внедрении российских программных продуктов и решений. Наш успешный опыт включает автоматизацию в ритейле, телекоме и производственных компаниях. Амаркон разрабатывает и внедряет собственные решения класса ECM, PIM, DAM, системы бизнес-аналитики BI, портальные решения, а также сервисы для электронной коммерции. Мы также осуществляем заказную разработку, внедряем, настраиваем и модифицируем партнерские IT-продукты. Наша команда опытных IT-специалистов предоставляет консалтинговые услуги, осуществляет сопровождение и поддержку IT-проектов. Среди наших клиентов такие известные компании, как X5 Group, Tele2, Русатом Сервис, НЛМК, Metro CC, Лента и другие. Чем предстоит заниматься (Задачи): Собирать и интегрировать данные из разных источников (API, логи, БД, CRM и т.п.) в data‑lake, хранилище или прод‑модели. Проектировать и развёртывать ETL/ELT‑пайплайны, настраивать их автоматизацию, мониторинг и обработку ошибок. Оптимизировать производительность запросов, хранилищ и пайплайнов (партиционирование, индексы, кластеризация, ресайз процессов). Обеспечивать качество, стабильность и безопасность данных (валидация, контроль дублей, права доступа, маскировка PII). Играться с архитектурой данных (data warehouse vs data lakehouse, потоковая vs партия, схемы iPaaS, CDC и т.п.) под текущие задачи и нагрузку. Наши ожидания (Ключевые требования): Язык: Python (чистый код, модули, библиотеки типа pandas, requests и т.п.) плюс понимание ООП и архитектурных паттернов. SQL: продвинутый уровень — CTE, оконные функции, сложные JOIN‑ы, понимание execution plan, индексов, партиционирования. Базы и хранилища: PostgreSQL/MySQL/ClickHouse/Redshift/BigQuery/SparkSQL и т.п., понимание, где и как хранить данные. Пайплайны и оркестрация: Airflow / Prefect / Dagster или аналоги; умение писать и поддерживать DAG‑и, обработку ошибок, логирование. Облака: AWS или GCP либо Azure (S3/Bucket, EMR/Dataproc, Fargate/Lambda, IAM, VPC, бюджеты). Big‑data минимум: Spark (PySpark или Scala) и/или Flink/Kafka при работе с потоковыми/большими данными; разбор партиционирования, сериализации, форматов (Parquet/ORC/Avro). Мы предлагаем: Удалённый формат работы Официальное оформление (ИП, СЗ)Похожие вакансии