Разработчик инфраструктуры RL-обучения LLM

Уровень дохода не указан

Опыт работы: 3–6 лет

Полная занятость

График: 5/2

Рабочие часы: 8

Формат работы: на месте работодателя, удалённо или гибрид

Напишите телефон, чтобы работодатель мог связаться с вами

Пройдите капчу
Чтобы подтвердить, что вы не робот, введите текст с картинки:
captcha
Неверный текст. Пожалуйста, повторите попытку.

Технологии и команда экспертов мирового уровня

Каждый день сотни IT-команд Яндекса решают сложные, уникальные и интересные технологические задачи. У нас можно работать в разных командах с разной продуктовой культурой и атмосферой: в больших хайлоад-сервисах и небольших внутренних стартапах. Все специалисты влияют на развитие продукта, помогают встраивать и развивать топовые технологии в сервисах, которые делают жизнь миллионов людей лучше.

  • Сильная команда, с которой можно расти и самому стать экспертом мирового уровня
  • Возможность поработать с разными командами над разными задачами и продуктами
  • Участие в разработке технологий, которые влияют на мировую IT-индустрию
  • Культура инноваций и создание по‑настоящему уникальных продуктов и сервисов

О вакансии

О вакансии

Мы создаём инфраструктуру для обучения и дообучения больших языковых (LLM) и визуально-языковых (VLM) моделей, которые используются в Алисе, Поиске, Рекламе и других сервисах Яндекса. Современное обучение таких моделей — это сложная система, которая включает десятки тысяч серверов, миллионы вычислительных ядер и многоуровневые соединения между ними. Наша задача — сделать эту систему максимально эффективной, рационально используя вычислительные ресурсы и минимизируя риски сбоев.

Обучение моделей превратилось в задачу управления сложными распределёнными системами. Нужно обеспечивать отказоустойчивость, эффективную доставку данных и минимизировать задержки в коммуникациях. Чем сложнее система, тем больше точек отказа, а чем больше ресурсов нужно на обучение, тем выше накладные расходы на запуск. Наша команда работает на стыке ML-математики и «железной» инфраструктуры: мы должны понимать и особенности аппаратного обеспечения (GPU, сети, шины данных, диски, память), и нюансы самого процесса обучения: составные части, взаимодействие компонентов, узкие места.

Один из популярных подходов к обучению LLM — обучение с подкреплением, Reinforcement Learning, RL. С ростом популярности этого метода появляются всё более сложные подходы, увеличивается потребность в вычислительных ресурсах — и, как следствие, возникает необходимость строить специализированную инфраструктуру.

Какие задачи вас ждут:

  • Оптимизация инфраструктуры RL-обученияВам предстоит улучшать ключевые компоненты: оптимизировать доставку и сохранение данных, оптимизировать коммуникации между блоками обучения, повышать эффективность работы внутри блоков.
  • Развитие инструментов диагностики
    Вы будете создавать и совершенствовать инструменты, которые позволят быстро выявлять и устранять инфраструктурные проблемы..

  • Повышение отказоустойчивости инфраструктуры
    Предстоит реализовывать подходы, которые сделают инфраструктуру обучения устойчивой к различным ошибкам и сбоям.

  • Исследование и внедрение современных решений
    Будете изучать новейшие подходы к организации инфраструктуры RL-обучения, оценивать их эффективность и внедрять в реальные проекты.

Мы ждем, что вы:

  • Знаете Python и имеете опыт системного программирования, разработки библиотек или фреймворков
  • Хорошо знакомы и работали на практике с фреймворком PyTorch и распределённым обучением через torch.distributed
  • Владеете подходами параллелизации: понимаете data parallelism, tensor parallelism, pipeline parallelism, expert parallelism для распределённого инференса или обучения
  • Интересуетесь LLM и MLOps: понимаете задачи и вызовы, которые связаны с эксплуатацией больших моделей в продакшне
  • Умеете эффективно работать в команде и делиться знаниями

Будет плюсом, если вы:

  • Участвовали в создании инфраструктуры обучения ML-моделей
  • Внедряли и оптимизировали RL-решения
  • Работали с библиотеками RL-обучения для LLM: veRL, slime, NeMo-RL, SkyRL и другими, а также с библиотеками инференса: vLLM, SGLang и TRTLLM
  • Владеете C++ и имеете опыт низкоуровневого программирования и оптимизации
  • Имеете опыт с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton

Что мы предлагаем

Высокий совокупный доход

Премии каждые полгода для всех, кто успешно прошёл ревью.

Офисы, в которые хочется ходить

В офисах есть всё, что нужно для комфортной работы: удобные рабочие зоны, уютные места для отдыха, кофепойнты для спокойных перерывов.

В офисах в Москве, Санкт-Петербурге, Екатеринбурге, Новосибирске, Казани и Нижнем Новгороде есть тренажёрные залы со всем необходимым.

Расширенная медицинская страховка

Начинает работать с первого месяца. В неё входят:

  • плановая и неотложная помощь, стоматология, расширенный превентивный чекап, телемедицина 24/7;
  • психотерапия в онлайн-сервисах наших партнёров;
  • после года работы добавляется лазерная коррекция зрения, после двух — ведение беременности и роды.

Также мы покрываем 80% стоимости ДМС для супругов и детей.

Возможности для роста

Есть всё, чтобы учиться: внутренняя платформа с 100+ курсами, менторство и программы для руководителей.

Оплачиваем участие в профильных конференциях и помогаем подготовиться к публичным выступлениям.

Если для работы нужен иностранный язык, поможем организовать обучение и оплатим 50% стоимости.

И ещё

Делаем закрытые мероприятия: вечеринки, фестивали и другие ивенты.

В Яндексе много клубов по интересам, Random Coffee, сервисы для знакомств и взаимопомощи. А наши спортивные клубы регулярно участвуют в забегах, триатлонах и других соревнованиях.

На портале скидок масса специальных предложений для сотрудников от наших партнёров.

Ключевые навыки

  • Python
  • C++

Контакты

Задайте вопрос работодателю

Он получит его с откликом на вакансию

Где предстоит работать

Москва, улица Льва Толстого, 16
Вакансия опубликована 10 декабря 2025 в Москве
Dream Job
Отзывы о компании