DevOps-инженер/k8s инженер

Уровень дохода не указан

Опыт работы: 3–6 лет

Полная занятость

График: 5/2

Рабочие часы: 8

Формат работы: на месте работодателя

Напишите телефон, чтобы работодатель мог связаться с вами

Пройдите капчу
Чтобы подтвердить, что вы не робот, введите текст с картинки:
captcha
Неверный текст. Пожалуйста, повторите попытку.

Tothemoon — международная криптофинтех-компания, которая уже более 8 лет развивает продукты на стыке финтех и блокчейн-инфраструктуры.

Мы строим экосистему, где технологии работают на грани производительности — от децентрализованных бирж и платёжных решений до вычислительных платформ нового поколения.

Сейчас мы запускаем новый проект — высокопроизводительную ML-инфраструктуру для AI-обучения и GPU-майнинга.

Проект сочетает низкоуровневое GPU-железо, кластер Kubernetes, и AI-таски, которые требуют стабильности, производительности и контроля за ресурсами.

Чтобы всё это работало без перебоев, мы ищем k8s инженера с сильным Linux, который любит железо, знает, как из него выжать максимум, и способен выстроить надёжную инфраструктуру вместе с нашей командой.

Что предстоит делать:

  • 90% - эксплуатация и развитие продакшн-инфраструктуры:

    • сопровождение managed k8s(контроль-плейн, нод-пулы, autoscaling, PDB, network policies);

    • поддержка API-и ML-флота

    • настройка мониторинга, алертинга, логирования, backup’ов, DR-сценариев;

    • разбор и устранение инцидентов в т.ч on-call

  • 10% - R&D и автоматизация текущего сетапа

Наш стек/Ядро проекта:

  • Cloud: (managed Kubernetes, GPU bare metal)

  • Orchestration: Kubernetes (multi-pool, autoscaling, GPU workloads)

  • GPU / ML: H100, NVIDIA stack (CUDA, драйверы, nvidia-device-plugin)

Нам важно:

  • Глубокий опыт с Kubernetes ( > 3 лет):

    • проектирование и эксплуатация продакшн-кластеров (желательно с autoscaling, PDB, network policies);

    • уверенное владение Deployments, StatefulSets, Ingress, RBAC, StorageClass, Helm/Kustomize;

    • опыт интеграции k8s с облачными провайдерами (EKS/GKE/AKS/GCore и др.)

  • Сильный Linux:

    • понимание работы ядра, сетевого стека, cgroups, namespaces;

    • диагностика performance-проблем (CPU, память, IO, сеть).

  • GPU и high-load ML/LLM - как большой плюс:

    • деплой и эксплуатация приложений на GPU в k8s;

    • базовое понимание CUDA / NVIDIA драйверов / nvidia-device-plugin;

    • опыт с monitoring’ом GPU (utilization, memory, thermals, errors).

  • Интеграционный и эксплуатационный опыт:

    • интеграция внешних сервисов в k8s (логирование, мониторинг, security, storage);

    • построение мониторинга/алертинга под SLO/SLA, разбор инцидентов end-to-end;

    • умение писать runbook’и и автоматизировать рутину

Условия
  • Формат: офис, Алматы/БЦ Кулан

  • Комфортный офис, обеды для сотрудников.

  • Конкурентное вознаграждение в USDT / фиатс оплатой больничных, отпусков

  • Команда уровня senior+, дружелюбная атмосфера и реальный технический вызов.

Ключевые навыки

  • Linux
  • Kubernetes
  • Администрирование серверов Linux
  • GRU
  • Русский — C2 — В совершенстве

Задайте вопрос работодателю

Он получит его с откликом на вакансию

Где предстоит работать

Алматы, Абая, Алмалы, Байконур, Жибек Жолы, проспект Достык, 188
Вакансия опубликована 17 ноября 2025 в Алматы