Обязанности:
Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности. Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде. Мы делаем приложения на базе Единого Хранилища Данных Основной функционал: 'Монетизация данных- сбор данных из разных источников, в первую очередь из "озера данных" и Единого Хранилища данных- анализ и поиск закономерностей в разнообразных данных- построение моделей, основанных на данных- автоматизация работы приложения- подробное описание модели приложения. Задачи: • участие в подготовке данных для последующего моделирования (в т.ч. в управлении процессом разметки данных) • поиск методов решения задач с использованием ИИ • оценка сложности, рисков и трудозатрат для реализации задач ML • проектирование и разработка моделей машинного обучения • документировании в части описания моделей и результатов экспериментов • участие в демонстрации разработанного ML решения Требования: •Высшее-техническое образование • знания численных методов математической статистики и навыки ее использования для оценки точности моделей • знание и опыт использования методов машинного обучения • знания и практические навыки написания SQL запросов, опыт оптимизации запросов • знание Python, Pandas, NumPy, PyTorch, TensorFlow, современных библиотек и Фреймворков • навыки работы с LLM включая промпт инжиниринг, обучение LoRa адаптеров, квантования, использования одного или нескольких GPU • навыки валидации работы моделей • навыки преобразования сканов в тексты • навык работы со средствами версионного контроля • знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD • опыт работы с функциональными требованиями Приветствуется опыт работы: построение RAG-систем работа с MLOps-конвейером Наш стек: • CI/CD: Ansible, Jenkins, Gitlab • технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala • IDE: Apache Zeppelin, JupyterLab, IntelliJ IDEA, VSCode • Языки программирования: Python Условия: гибридный график работы (до 50% времени - удаленный режим работы); гибкое начало дня (08.00-11.00)Договорная
Санкт-Петербург. Станции метро: Достоевская, Владимирская
Интерлизинг