Мы создаем высокотехнологичную платформу, которая позволяет эффективно обучать AI-модели (включая большие языковые модели, LLM), используя простаивающие вычислительные мощности GPU в дата-центрах по всему миру. Наша цель — построить масштабируемую, отказоустойчивую распределенную систему для безопасного и высокопроизводительного обучения моделей.
Для усиления нашей команды мы ищем талантливого AI / ML инженера, который возьмется за проектирование и реализацию ключевых компонентов нашего распределенного ML-пайплайна.
Что мы предлагаем
-
Конкурентная зарплата: до $10 000 (на руки).
-
Полностью удаленная работа из любой точки мира.
-
Влияние на архитектуру: Возможность с нуля формировать облик compute-платформы.
-
Масштабные задачи: Работа с кластерами из десятков и сотен GPU в различных дата-центрах.
-
Технологическая свобода: Самостоятельный выбор оптимальных технологий и инструментов для построения ML-пайплайна.
-
Динамичная среда: Сложные вызовы, быстрые итерации, минимум бюрократии.
-
Ключевая роль: Ваша работа будет напрямую влиять на развитие и успех нашего бизнеса.
Чем предстоит заниматься:
-
Разработка и оптимизация end-to-end пайплайна обучения моделей (LLM, классические ML, мультимодальные).
-
Интеграция фреймворков (PyTorch, TensorFlow, JAX) с нашей compute-платформой.
-
Настройка и оптимизация распределенного обучения (Data/Model Parallel, FSDP/ZeRO, DDP).
-
Разработка и оптимизация Docker-контейнеров для задач обучения и их оркестрация с помощью Kubernetes.
-
Построение надежного пайплайна данных: от загрузки и подготовки до обучения и выгрузки артефактов.
-
GPU-профилирование и низкоуровневая оптимизация (CUDA, NCCL).
-
Взаимодействие с backend-командой по проектированию API для оркестрации задач.
-
Настройка системы мониторинга обучения: сбор метрик, логов и данных профилирования.
-
Исследование и внедрение новых фреймворков и подходов для ускорения обучения LLM.
Что мы ожидаем:
-
Профильный опыт работы более 5 лет.
-
Отличный практический опыт работы с PyTorch. Знание TensorFlow или JAX будет большим плюсом.
-
Опыт настройки и оптимизации распределенного обучения моделей с использованием PyTorch Distributed (DDP), DeepSpeed (FSDP, ZeRO), Hugging Face Accelerate.
-
Понимание архитектуры GPU, принципов работы CUDA и библиотек межпроцессного взаимодействия (NCCL).
-
Глубокие знания Python и коммерческий опыт разработки, включая умение писать оптимизированный код для тренировки моделей.
-
Опыт работы с Docker и с Kubernetes. Понимание полного цикла ML-процессинга: работа с датасетами, загрузчиками данных, системой чекпоинтов, возобновления обучения и метрик.
-
Умение выявлять и устранять "узкие места" производительности (CPU/GPU, I/O, сеть). Знание инструментов мониторинга: TensorBoard, Weights & Biases, Prometheus.
Будет преимуществом:
-
Опыт тонкой настройки (fine-tuning) и обучения больших языковых моделей (LLM) с использованием таких инструментов, как Hugging Face Transformers, DeepSpeed и Megatron-LM.
-
Опыт разработки или глубокой оптимизации кластерных вычислительных систем.
-
Навыки оптимизации инференса с помощью Triton, ONNX, TensorRT.
-
Базовые знания Go или Rust для взаимодействия с низкоуровневыми компонентами системы.
Скорее оставляйте отклик и мы обязательно с вами свяжемся
Ключевые навыки
- PyTorch
- DDP
- DeepSpeed
- Hugging Face Accelerate
- GPU
- CUDA
- NCCL
- Python
- Docker
- Kubernetes
- TensorBoard
- Weights & Biases
- Prometheus
- LLM
- Golang
- Rust
- Triton
- ONNX
- TensorRT