Обязанности:
О проекте: Команда DWH - занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Наша платформа позволяет решать важные продуктовые задачи и принимать стратегические решения в компании на основе данных. Основное хранилище данных реализовано на MS SQL Server. Его объем исчисляется терабайтами данных и продолжает расти. Сейчас активно внедряем DataLake на базе Kafka, Airflow, Hadoop, Hive, Spark и нам необходимо развивать процессы и инфраструктуру для тестирования.В качестве источников данных используются: базы данных, API, SFTP (файлы разных форматов), брокеры сообщений (RabbitMQ, Kafka). В команде хорошо развиты процессы и инженерные практики: написание автотестов, ревью, CI, автоматизированные мониторинги. Основные задачи: Планирование и проведение необходимых видов тестирования для процессов загрузки данных в DWH, DataLake, DataVault; Разработка автоматизированных тестов (Python (pytest, pyspark), SQL); Помощь команде в анализе и решении инцидентов; Создание и поддержка в актуальном состоянии тестовых сред; Написание процессов по проверке качества данных в хранилище. Что вам для этого нужно: Понимание процесса разработки и целей процесса тестирования; Опыт написания автотестов на Python; Опыт работы с базами данных. SQL на хорошем уровне; Знание теории тестирования (техники тестирования, планирование тестирования, тест-дизайн). Будет плюсом: Понимание что такое хранилища данных, ETL-процессы. Опыт их тестирования; Опыт работы с Docker; Опыт работы со Spark; Опыт работы с Azure DevOps.