Кситест — лидер геномной селекции в России и СНГ, единственная компания с международной аккредитацией ICAR. Мы повышаем продуктивность и здоровье сельскохозяйственных животных с помощью геномных оценок племенной ценности. Среди наших клиентов — крупнейшие агрохолдинги страны. Мы ищем сильного специалиста в команду, отвечающую за аналитическое ядро продукта: пайплайны обработки данных, модели прогноза, математическую оптимизацию и исследовательские задачи. Вам предстоит участвовать во всех частях разработки продукта — от проектирования пайплайнов и моделей до контроля качества результатов, которые получают клиенты. У вас будет прямое влияние на решения, определяющие развитие исследовательской части продукта, и возможность формировать планы и видение этого направления. Обязанности: Проектировать и развивать пайплайны обработки генотипов, загрузки фенотипов, расчёт племенных оценок. Поддерживать и улучшать модельное ядро: BLUP / ssGBLUP, оценка дисперсионных компонент, селекционные индексы. Развивать инфраструктуру данных: миграция промежуточного хранилища на колоночные СУБД (ClickHouse), проектирование схем, обеспечение идемпотентности и воспроизводимости пайплайнов. Вести исследовательскую работу: проверка гипотез по улучшению точности оценок, новые модели, новые признаки. Работать с задачами математической оптимизации (подбор пар, минимизация инбридинга, формирование племенного ядра). Обеспечивать контроль качества на всех этапах: от сырых данных до финальных индексов, которые видит клиент. Требования: 5+ лет опыта в разработке систем обработки данных на Python. Опыт проектирования и поддержки промышленных пайплайнов (загрузка, трансформация, модели, аналитика) — не только ноутбуки и прототипы. Сильный SQL (оконные функции, CTE, оптимизация запросов, работа со схемами). Опыт работы с колоночными или аналитическими СУБД (ClickHouse, Vertica, BigQuery, DuckDB). Уверенное владение статистикой, машинным обучением или математической оптимизацией в промышленном контексте. Опыт миграции или рефакторинга существующих пайплайнов без остановки работающей системы. Самостоятельность: способность разобраться в чужом коде, в незнакомом домене, принять решение и довести до результата. Большой плюс: почему стоит рассмотреть Опыт в биоинформатике, количественной генетике или смежных областях (медицинская генетика, популяционная генетика). Знание BLUP/GBLUP, анализа родословных, работы с SNP-данными. Опыт с вероятностными моделями (байесовский вывод, MCMC, EM-алгоритм). Опыт в доменах с высокой ценой ошибки, где неточность в данных имеет реальные последствия. Стек и контекст: Python (pandas, NumPy, SciPy, SQLAlchemy, boto3) — основной язык всех пайплайнов. PostgreSQL — продуктовая БД, сложные аналитические SQL-запросы. ClickHouse — целевая СУБД для аналитического хранилища. Apache Airflow — оркестрация пайплайнов. MiXBLUP — движок смешанных моделей для расчёта племенных оценок. PLINK, KING, Beagle — биоинформатические инструменты для анализа генотипов. TensorFlow Probability, cvxpy, MOSEK — вероятностные модели и оптимизация. S3 — хранение генотипных данных. Не обязательно знать всё из списка. Обязательно — уметь быстро разбираться в незнакомых инструментах и доменах. Почему стоит рассмотреть нашу вакансию: Уникальный домен. Геномная селекция — одна из немногих областей, где модели и инженерия данных напрямую меняют реальный мир: продуктивность стад, здоровье животных, экономику целых регионов. Влияние на продукт. Возможность формировать видение и планы исследовательской части продукта, а не просто выполнять задачи по списку. Нетривиальные задачи. Смешанные модели на десятках тысяч животных, комбинаторная оптимизация подбора пар, импутация генотипов, мультитрейтовые корреляции. Условия: Гибрид (работа в уютном офисе в центре Москвы/ удаленный формат) Зарплата по результатам собеседования Как проходит отбор: 1. Рассмотрение заявки. 2. Техническое интервью (90 мин): два кейса — системный дизайн аналитического пайплайна и исследовательская задача с погружением в домен. 3. Встреча с руководителем компании (30 мин). Откликайтесь, если хотите развивать аналитическое ядро компании, которая меняет сельское хозяйство с помощью генетики.
Похожие вакансии
Data Scientist – Специалист по данным
От 200 000 руб.
Москва. Станции метро: Серпуховская, Павелецкая, Добрынинская
Фирма Топред
Ведущий оператор / Ведущий специалист по данным и процессам
Договорная
Москва. Станции метро: Серпуховская, Павелецкая, Добрынинская
Медико-фармацевтический дистрибьютор