Обязанности:
О проекте B2B SaaS-продукт, работающий с большими объёмами слабоструктурированных документов (PDF / DOCX / XLSX) и строящий на них аналитику. Сейчас вся обработка данных — rule-based (regex + словари). Запускается контур локального LLM-инференса для нормализации и извлечения структурированных данных. Ограничение: данные — коммерческая тайна, деплой только on-prem, облачные LLM-API исключены — используются открытые модели локально. Junior ML/LLM-инженер Локальный LLM-инференс и извлечение данных из документов. On-prem, без облачны Задачи Эксперименты с открытыми LLM: подбор моделей и промптов под задачи извлечения, сравнение результатов. Разработка кода извлечения структурированных данных (constrained JSON) из документов и таблиц на Python в существующем бэкенде. Сбор и разметка наборов для оценки качества, расчёт метрик (точность по полям), отслеживание регрессий при смене модели или промпта. Нормализация данных: дедупликация и сопоставление сущностей, очистка полей правилами и LLM. Поддержка OCR-пайплайна для сканов (Tesseract / Surya / PaddleOCR). Работа с очередью ручной проверки результатов. Стек Python 3.12, FastAPI, SQLAlchemy 2.0, PostgreSQL 16, Docker Compose. ML-часть строится с нуля: локальный инференс (vLLM / Ollama / llama.cpp), constrained decoding, эмбеддинги, pgvector, fine-tune (peft / unsloth). Требования Коммерческий опыт на Python — от 1 года: продакшен-код, работа в команде и с чужой кодовой базой. Уверенный Python: ООП, структуры данных, чистый читаемый код. Портфолио с проектами на LLM/ML — собственные или рабочие, с возможностью показать (GitHub) и разобрать. Практический опыт с LLM: запуск моделей, написание промптов под задачи, RAG, работа с эмбеддингами. Git, Docker. Английский на чтение документации. Будет преимуществом Опыт fine-tune (LoRA/QLoRA) или дообучения эмбеддеров. Локальный запуск моделей: Ollama / llama.cpp / vLLM. SQL, опыт с PostgreSQL. Понимание основ ML: метрики качества, train/val, переобучение. Обработка текста и таблиц (pandas, парсинг документов). ML-соревнования (Kaggle и т. п.).Похожие вакансии
ML-инженер в Центр технологий искусственного интеллекта
Договорная
Самара. Станции метро: Российская, Московская, Алабинская
Т-Банк
Сценарист бота (ML, BUTTON, голос)
Договорная
Самара. Станции метро: Российская, Московская, Алабинская
RWB (Wildberries & Russ)
Помощник регионального маркетолога (Junior)
До 60 000 руб.
Самара. Станции метро: Российская, Московская, Алабинская
Додо Пицца (ООО ДОДО ПИЦЦА САМАРА)
Junior-разработчик (AI интеграции)
От 80 000 руб.
Самара. Станции метро: Российская, Московская, Алабинская
Лаборатория Интернет
BI-разработчик (Junior+/Middle)
Договорная
Самара. Станции метро: Российская, Московская, Алабинская
СБЕР
Junior Sales Manager (gamedev)
Договорная
Самара. Станции метро: Российская, Московская, Алабинская
Sunloca