Junior ML/LLM-инженер

Более недели назад

З/П не указана

Город: Самара. Станции метро: Российская, Московская, Алабинская

СтройМонтажПроект

Город: Самара. Станции метро: Российская, Московская, Алабинская

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 1 года

СтройМонтажПроект

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 1 года

Обязанности:

О проекте B2B SaaS-продукт, работающий с большими объёмами слабоструктурированных документов (PDF / DOCX / XLSX) и строящий на них аналитику. Сейчас вся обработка данных — rule-based (regex + словари). Запускается контур локального LLM-инференса для нормализации и извлечения структурированных данных. Ограничение: данные — коммерческая тайна, деплой только on-prem, облачные LLM-API исключены — используются открытые модели локально. Junior ML/LLM-инженер Локальный LLM-инференс и извлечение данных из документов. On-prem, без облачны Задачи Эксперименты с открытыми LLM: подбор моделей и промптов под задачи извлечения, сравнение результатов. Разработка кода извлечения структурированных данных (constrained JSON) из документов и таблиц на Python в существующем бэкенде. Сбор и разметка наборов для оценки качества, расчёт метрик (точность по полям), отслеживание регрессий при смене модели или промпта. Нормализация данных: дедупликация и сопоставление сущностей, очистка полей правилами и LLM. Поддержка OCR-пайплайна для сканов (Tesseract / Surya / PaddleOCR). Работа с очередью ручной проверки результатов. Стек Python 3.12, FastAPI, SQLAlchemy 2.0, PostgreSQL 16, Docker Compose. ML-часть строится с нуля: локальный инференс (vLLM / Ollama / llama.cpp), constrained decoding, эмбеддинги, pgvector, fine-tune (peft / unsloth). Требования Коммерческий опыт на Python — от 1 года: продакшен-код, работа в команде и с чужой кодовой базой. Уверенный Python: ООП, структуры данных, чистый читаемый код. Портфолио с проектами на LLM/ML — собственные или рабочие, с возможностью показать (GitHub) и разобрать. Практический опыт с LLM: запуск моделей, написание промптов под задачи, RAG, работа с эмбеддингами. Git, Docker. Английский на чтение документации. Будет преимуществом Опыт fine-tune (LoRA/QLoRA) или дообучения эмбеддеров. Локальный запуск моделей: Ollama / llama.cpp / vLLM. SQL, опыт с PostgreSQL. Понимание основ ML: метрики качества, train/val, переобучение. Обработка текста и таблиц (pandas, парсинг документов). ML-соревнования (Kaggle и т. п.).

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 155125901