other

Стажер LLM/ML

18 сентября 2024

От 50 000 руб.

Город: Санкт-Петербург. Станции метро: Петроградская

Альтирикс системс

Тип занятости: Стажировка

Требуемый опыт: Без опыта

Обязанности:

Отклики без сопроводительного письма не рассматриваются.Укажите свой опыт (вкл. учебный) работы с текстовыми датасетами и задачами их подготовки для обучения моделей машинного обучения (ML) другую информацию в сопроводительном письме указывать не нужно. Стажировка в гибридном формате. С обязательным посещением офиса в Санкт-Петербурге. Навыки программирования и автоматизации: Умение писать и использовать скрипты для автоматизации сбора, обработки и очистки данных. Опыт кодинга, Python (обязательно), а также знание библиотек для обработки данных, таких как pandas, NumPy, BeautifulSoup, Scrapy и др. Опыт работы с API для сбора данных из различных источников. Знание и опыт работы с системами управления версиями (Git) и основами DevOps. Понимание принципов работы LLM: Понимание основ и принципов работы крупных языковых моделей (LLM), включая архитектуры трансформеров (Transformer), предобучение моделей и процесс дообучения на специфических задачах. Опыт работы с фреймворками и библиотеками для машинного обучения, такими как Hugging Face Transformers, TensorFlow или PyTorch. Понимание основ вычислительной лингвистики и работы с естественным языком (NLP), а также умение адаптировать модели к конкретным задачам (дообучение, тонкая настройка). Навыки работы с данными: Умение собирать и классифицировать большие объемы текстовых данных из различных источников (социальные сети, форумы, блоги и др.). Навыки предварительной обработки текстовых данных: нормализация, токенизация, удаление лишних символов и помех. Способность анализировать данные и определять, подходят ли они для обучения LLM (оценка качества, репрезентативность, релевантность). Аналитические способности и внимание к деталям: Умение критически анализировать собранные данные и формулировать выводы на основе их анализа. Высокое внимание к качеству данных, включая способность выявлять ошибки, аномалии и несоответствия в текстовых датасетах. Преимуществом будет: Опыт (вкл. учебный) работы с параллельными вычислениями и распределёнными системами для обработки больших объемов данных. Опыт работы с инструментами контейнеризации (Docker) и оркестрации (Kubernetes). Понимание базовых принципов этики при сборе и использовании данных, включая вопросы конфиденциальности и лицензирования. Soft skills: Способность работать в команде и сотрудничать с другими специалистами (разработчиками, лингвистами, исследователями). Хорошие коммуникативные навыки для объяснения технических аспектов работы другим участникам проекта. Способность к самостоятельному обучению и желанию развиваться в области разработки и обучения языковых моделей. Условия стажировки на время прохождения стажировки закрепляется куратор, всегда готовый помочь обеспечивается всем необходимым для успешного прохождения стажировки возможен гибридный формат работы (часть в офисе, часть удаленно) готовы предоставить все необходимые документы для ВУЗа для зачёта практики, в т. ч. рекомендательное письмо оплата по результатам стажировки

Имя не указано

Откликнуться
Разместить Резюме
Пожаловаться ID: 121675760

Похожие вакансии

ML Engineer

Договорная

Санкт-Петербург. Станции метро: Петроградская

Cbonds.ru

ML-исследователь

До 100 000 руб.

Санкт-Петербург. Станции метро: Петроградская

НеоБИТ

ML-инженер

Договорная

Санкт-Петербург. Станции метро: Петроградская

Тинькофф

Engineering Manager - LLM Research

От 2 500 руб.

Санкт-Петербург. Станции метро: Петроградская

BlockShop

ML разработчик (Python)

До 70 000 руб.

Санкт-Петербург. Станции метро: Петроградская

Скиллтеллект

Backend ML engineer

Договорная

Санкт-Петербург. Станции метро: Петроградская

Газпром нефть