Обязанности:
О проекте Создаем веб-платформу, где пользователи могут создавать, настраивать и запускать свои решения на базе GenAI. Тебя ждут участие в проектировании серверной архитектуры и реализация ключевых сервисов: от API и очередей до интеграций с LLM и векторными БД. Твои задачи Бэкенд и архитектура: Участие в выборе технологического стека и проектировании масштабируемой серверной архитектуры (сервисы, слои, границы контекстов) Проектирование и реализация основных API (REST/gRPC), real-time (WebSocket/SSE) Проработка модели данных и схемы хранения (Mongo, PostgreSQL), очередей/стримов. Закладывать безопасность: аутентификация и авторизация (OAuth2/OIDC, JWT), RBAC/ABAC, rate limiting, audit GenAI-функциональность: Интеграции с провайдерами LLM (OpenAI/Anthropic/Yandex/Sber): чат, функции-вызовы, стриминг токенов RAG-пайплайн: загрузка и нарезка документов, эмбеддинги, векторный поиск (Qdrant), перегруппировка результатов Оркестрация промпов, бюджетирование, логирование и наблюдаемость качества ответов Качество и надежность: Покрытие кода тестами (unit/integration) Оптимизация производительности Поддержка наблюдаемости Требования 4+ лет коммерческой разработки на Python, 2+ года с FastAPI и asyncio. Уверенное владение Pydantic, SQLAlchemy. Опыт проектирования и реализация серверных API (REST/gRPC), real-time (WebSocket/SSE). Отличное знание SQL/реляционных БД (PostgreSQL) и NoSQL (Mongo, Redis). Опыт работы с очередями/стримами и асинхронной обработкой задач. Практика интеграции внешних API. Тестирование (unit/integration), базовые навыки нагрузочного тестирования. Docker, базовые навыки Kubernetes; настройка CI/CD. Понимание принципов безопасности, устойчивости и наблюдаемости в проде. Будет плюсом Опыт построения RAG-систем, знание LangChain/LlamaIndex или аналогов. Работа с векторными БД (qdrant, pgvector, Pinecone) и эмбеддинг-моделями. Опыт со streaming inference (vLLM, ollama), очередями задач (Celery/Temporal)Похожие вакансии