Наша команда разрабатывает RAG-архитектуру для GigaChat (модель и сайт). Основные задачи, которые выполняет сервис RAG (Retrieval Augmented Generation): поиск релевантной информации: RAG осуществляет эффективный поиск и извлечение данных из внешних баз знаний, документов или других источников, которые могут содержать ответ на запрос пользователя. дополнение контекста: найденные данные добавляются к запросу, который затем передается генеративной языковой модели (LLM), чтобы обогатить и уточнить ответ. генерация точного и обоснованного ответа: на основе как внутреннего знания модели, так и извлеченной релевантной информации RAG создает ответ, который более точен и менее подвержен ошибочным или вымышленным фактам (галлюцинациям). актуализация данных: позволяет получать ответы на основе свежих и обновляемых данных без необходимости переобучения самой языковой модели. поддержка факточекинга и ссылок на источники: RAG может предоставлять ссылки на исходные документы или данные, подтверждающие ответ. использование в специализированных задачах: решение вопросов в узкоспециализированных областях, таких как техническая поддержка, юридическая консультация, HR, клиентский сервис и интернет-магазины, где важна точность и своевременность информации. снижение рисков ошибок и галлюцинаций: минимизация случаев, когда модель выдает ложные или неточные сведения. Обязанности проектировать архитектуру backend-сервисов и RAG-систем руководить разработкой ключевых компонентов на Python / FastAPI принимать технические решения по API, данным, очередям, интеграциям и RAG-пайплайнам оптимизировать производительность, надежность и стоимость backend- и LLM-компонентов развивать подходы к поиску: semantic search, hybrid search, reranking, metadata filtering обеспечивать качество кода, проводить code review и помогать junior/middle-разработчикам исследовать новые технологии в области LLM, RAG и backend-разработки. Требования 5+ лет коммерческого опыта backend-разработки, преимущественно на Python. глубокое знание Python, FastAPI, асинхронного программирования и архитектуры backend-сервисов. сильный опыт работы с PostgreSQL, Redis, Docker / Docker Compose. опыт работы с Qdrant или другими vector databases в production. глубокое понимание RAG: ingestion, chunking, embeddings, retrieval, reranking, generation, evaluation. опыт интеграции LLM API и понимание их ограничений: latency, cost, rate limits, hallucinations. опыт работы с Kafka в production-сценариях. опыт проектирования микросервисной архитектуры. умение писать поддерживаемый, тестируемый и расширяемый код. опыт технического лидерства, декомпозиции задач и code review. английский язык на уровне чтения технической документации. Условия возможность выбрать удобный формат работы: гибрид или офис комфортный современный офис рядом с м. Кутузовская ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа ипотека выгоднее до 7% для каждого сотрудника бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.
Похожие вакансии