Обязанности:
Немного о нас itBoat Group — международная группа компаний, основанная в 2010 году. В группу входит крупный онлайн-маркетплейс о яхтах itBoat.com и брокерская компания по продаже, аренде и менеджменту яхт. Кроме этого, мы являемся дистрибьюторами нескольких ведущих мировых яхтенных брендов в ряде стран СНГ и Ближнего Востока. Чем предстоит заниматься Разрабатывать и поддерживать пайплайны сбора данных из веба, внешних источников и API Строить устойчивую инфраструктуру для scraping-задач: прокси, ротация IP, rate limits, retries, очереди, мониторинг Работать с anti-bot ограничениями, headless-браузерами и нестабильными источниками данных Проектировать ETL / ELT-процессы и доставку данных в аналитические и продуктовые системы Поддерживать backend-сервисы, связанные со сбором, обработкой и выдачей данных Настраивать хранение данных: сырые данные, промежуточные слои, очищенные и готовые к использованию датасеты Следить за качеством данных, отказоустойчивостью и наблюдаемостью пайплайнов Использовать современные инструменты агентной разработки для ускорения разработки и поддержки решений Что нам важно Практический опыт в web scraping и промышленном сборе данных из веба Опыт настройки и использования прокси-инфраструктуры Понимание, как строить надежные data pipelines: ingestion, transform, validation, delivery Уверенные знания SQL и опыт работы с реляционными базами данных Понимание принципов backend-разработки: сервисы, API, очереди, обработка ошибок, логирование Знания Python и готовность использовать его в задачах сбора и обработки данных Понимание работы с большими объемами данных, пакетной и/или потоковой обработкой Опыт работы с Docker и базовыми DevOps-практиками будет плюсом Английский язык не ниже B2 — работать предстоит прежде всего с англоязычными источниками данных Будет большим плюсом Опыт использования современных AI / agentic dev tools, включая Claude Code или Codex (вся наша компания уже работает на Claude) Опыт с Playwright, Puppeteer, Selenium или аналогичными инструментами Опыт работы с Firecrawl / Apify или аналогами Опыт проектирования data lake / data warehouse слоев Опыт работы с PostgreSQL, ClickHouse, Redis, объектным хранилищем типа S3 / MinIO Опыт с orchestration-инструментами вроде Airflow, Prefect или Dagster Понимание антибот-защиты, fingerprinting, Cloudflare-like ограничений и способов аккуратной работы с ними Опыт построения распределенных систем сбора данных Что за профиль мы ищем Это не узкая вакансия только под data engineering / scraping и не классический backend-only профиль. Нам нужен инженер, который умеет: собирать данные из сложных веб-источников, превращать это в устойчивый pipeline, хранить и нормализовывать данные, при необходимости — дописывать минимальную backend-логику вокруг этих процессов, а самое главное — захочет разобраться во всех нюансах нашего домена (яхты и все что с ними связано) с тем чтобы активно участвовать в разработка продуктов на базе накопленных и структурированных компанией данных. Что мы предлагаем Старт с единичного тестового проекта, далее переход на full-time Работа удаленно или в гибридном формате Конкурентная оплата Современные AI инструменты с максимальной подпиской (основной стек — Claude Code, Codex, плюс необходимые доп сервисы и API) Крутая международная команда и интересные задачи Возможность окунуться в сферу яхтинга, обучиться новому и вырасти как специалисту. В сопроводительном письме расскажите вкратце о ваших проектах связанных со скрейпингом (в идеале со ссылками), а также укажите пожалуйста реальный уровень знаний английского.Похожие вакансии