Обязанности:
О компании Мы создаём продукт нового класса: персональный AI-агент— для руководителей и команд, которым важна приватность данных и независимость от облаков. Наш агент работает локально, на устройстве клиента, умеет думать, помнить и действовать — в режиме 24/7. Мы небольшая и быстрая команда. Нам нужен человек, который не просто умеет строить AI-системы, а понимает, как они должны работать в реальной жизни. Кого ищем Ведущего AI-инженера и архитектора — человека, который берёт на себя полную техническую ответственность за платформу: от архитектуры агента до инфраструктуры и деплоя на железо клиента. Это не позиция «сделать пару LLM-запросов». Это проектирование живой системы с памятью, инструментами, оркестрацией и реальными пользователями. Что предстоит делать Проектировать и развивать мультиагентную on-premise AI-платформу: оркестратор, планировщик инструментов, multi-LLM роутинг, управление контекстом. Строить и улучшать гибридную систему памяти: RAG (pgvector) + GraphRAG (LightRAG / ArangoDB), политики записи, дедупликация, чистота данных. Разрабатывать агентные воркфлоу: n8n, кастомные webhook-цепочки, триггеры, cron-задачи, интеграция с внешними сервисами. Обеспечивать инфраструктуру: Docker Compose, развёртывание на Mac и Linux-серверах, мониторинг, логирование, резервирование. Работать с локальными LLM: Qwen3 / llama.cpp / vLLM, квантизация, тюнинг производительности под Apple Silicon и x86. Поддерживать кросс-платформенный деплой: один и тот же стек работает на Mac и на Linux-сервере (bare metal или VPS) в dev/staging — без расхождений в поведении. Участвовать в формировании продуктовой архитектуры: онбординг клиентов, конфигурирование агента, первичная настройка устройства (AP Mode, визорд, Chat-UI). Писать технические ТЗ и документацию для подрядчиков и внутренней команды. Что важно для нас Обязательно: Опыт проектирования и реализации агентных AI-систем (LLM Agents, Tool Calling, Multi-agent Orchestration) — не теоретический, а с продакшн-результатом. Глубокое понимание RAG-архитектур: dense retrieval, hybrid search, GraphRAG, управление namespace и чистотой графа. Уверенный Python, опыт с pgvector / ArangoDB или аналогами, Docker / Docker Compose. Опыт работы с on-premise и private AI — развёртывание на собственном железе, без облаков. Опыт развёртывания и эксплуатации AI-стека на Linux (Ubuntu/Debian) и macOS (Apple Silicon) — понимание отличий в сетевом стеке, systemd, оптимизации под ARM vs x86. Умение делать полный цикл в одиночку или в маленькой команде: архитектура → разработка → деплой → поддержка. Будет плюсом: Опыт с vLLM, llama.cpp, Ollama, работа с квантизированными моделями. Знание специфики Apple Silicon (Metal, MLX, llama.cpp с GPU-offload) — тюнинг производительности инференса на Mac Mini. Опыт сборки кросс-платформенных образов Docker (linux/arm64 + linux/amd64). Kubernetes, MLOps / LLMOps, Grafana / Prometheus / InfluxDB. Опыт построения команды с нуля или технического лидерства. Опыт в промышленных или enterprise-проектах — понимание, что значит «сложный заказчик». Scala, Kafka, Cassandra — как дополнение к основному стеку. Что мы предлагаем Работу над реальным продуктом, который уже продаётся и используется — не R&D ради R&D. Полную техническую автономию: архитектурные решения принимаешь ты, не комитет из 15 человек. Формат работы: гибрид или удалённо, командировки по договорённости. Возможность вырасти в технического директора по мере масштабирования продукта. Конкурентная зарплата — обсуждается индивидуально, исходя из уровня кандидата. Стек Python · n8n · Docker Compose · PostgreSQL + pgvector · LightRAG · Qdrant · Ollama · Qwen3 · llama.cpp / vLLM · Mac Mini M4 Pro (Apple Silicon) · Linux (Ubuntu/Debian, bare metal и VM) · FastAPI · Telegram Bot API · OCR · systemd · Nginx Как отозваться Напишите нам коротко: Что вы уже строили из перечисленного — желательно со ссылками или описанием. Что из задач в этой вакансии вам близко больше всего. Почему AI. Когда готовы начать Мы читаем каждый отклик лично и отвечаем быстро.Похожие вакансии