Разработка и настройка моделей машинного обучения, оптимизация производительности моделей.Проект по разработке помощника аналитика. Обязанности: Разработка и настройка моделей машинного обучения для обработки естественного языка (NLP), в том числе крупных языковых моделей (LLM) Оптимизация производительности моделей, включая ускорение вычислений и снижение времени отклика Настройка API и пайплайнов для интеграции LLM в бизнес-приложения, обеспечение их надежного развертывания и масштабируемости Использование инструментов Triton и библиотек для параллелизации и оптимизации вычислений на GPU Мониторинг, улучшение и оптимизация моделей с учетом показателей производительности и использования ресурсов Поддержка инфраструктуры для отслеживания экспериментов и версий моделей (например, MLFlow или Airflow) Требования: Опыт работы ML-инженером — от 3 лет, с фокусом на NLP и большими языковыми моделями Глубокое понимание архитектуры LLM и опыта работы с библиотеками PyTorch, Huggingface или аналогичными Опыт работы с инструментами и методами оптимизации вычислений на GPU, знание параллельных вычислений и работы с крупными батчами данных Опыт создания и развертывания ML-решений с использованием Docker Знание Python и опыт работы с фреймворками для создания API (FastAPI, Flask, Django) Понимание CI/CD процессов для ML-моделей и опыт автоматизации пайплайнов Навыки вывода моделей в прод (Важно!!) Желательные: - Опыт работы с Triton и другими инструментами оптимизации для LLM.- Навыки развертывания и использования систем мониторинга и трекинга экспериментов, версионирования данных (например, MLFlow, ClearML, Grafana, Prometeus, DVC).- Опыт квантизации моделей. Условия: Оформление по ТК РФ, полностью "белая" зарплата Гибкий график: 5/2, 8-часовой рабочий день Удалённый формат работы из любой точки России Доступ к масштабным проектам и современным технологиям Возможности для профессионального роста и обучения Дружная команда экспертов, готовых делиться опытом
Похожие вакансии