Руководитель группы мониторинга / Head of Monitoring & Incident Management

Уровень дохода не указан

Опыт работы: более 6 лет

Полная занятость
Оформление:
Трудовой договор

График: 5/2

Рабочие часы: 8

Формат работы: гибрид

IT-компания
У работодателя есть аккредитация

Напишите телефон, чтобы работодатель мог связаться с вами

Пройдите капчу
Чтобы подтвердить, что вы не робот, введите текст с картинки:
captcha
Неверный текст. Пожалуйста, повторите попытку.

Команда мониторинга отвечает за стабильность и доступность ключевых сервисов компании. Наша группа Incident Management — это 8 специалистов, которые круглосуточно следят за системами, быстро реагируют на инциденты и помогают бизнесу работать без перебоев. Сейчас мы ищем руководителя, который сможет развивать процессы и команду, а также вывести автоматизацию на новый уровень.

Обязанности:

  • Руководить процессами мониторинга и управления инцидентами: от первых сигналов до полного восстановления сервиса.

  • Управлять командой (8 человек): ставить цели, помогать развиваться, поддерживать on-call процессы и процессы по дежурствам.
  • Формулировать и достигать цели по ключевым метрикам (OKR): сокращать количество инцидентов, уменьшать время реакции и восстановления, снижать даунтайм.
  • Внедрять автоматизацию: боты, скрипты, интеграции для ускорения реагирования и устранения рутины.
  • Работать с разными системами: Atlassian-стек (Jira, Confluence) и наши собственные разработки.
  • Организовывать постмортемы: находить корневые причины и внедрять улучшения.
  • Следить за выполнением SLA, готовить необходимые отчёты
  • Развивать базу знаний и рабочие инструкции, проводить учения по инцидентам.

Что мы ждём от вас:

  • Опыт работы в мониторинге, Incident Management, NOC или SRE (от 5 лет), из них минимум 2 года — в роли тимлида или руководителя.
  • Умение управлять инцидентами в роли Incident Manager/Commander, расставлять приоритеты и быстро принимать решения.
  • Опыт работы с OKR и достижением метрик надежности (MTTA, MTTR, SLA).
  • Владение Python и SQL на уровне написания скриптов, автоматизации и анализа данных.
  • Знание инструментов мониторинга и APM, умение работать с разными системами (Prometheus, Zabbix, Grafana и др.), готовность быстро осваивать новые.
  • Опыт работы с Jira, Confluence или аналогичными ITSM-системами.
  • Навыки проведения постмортемов и внедрения улучшений.
  • Хорошие коммуникативные навыки: умение доносить информацию как до инженеров, так и до бизнеса. Также желателен разговорный английский язык (коммуникация с коллегами из Китая)

Будет плюсом

  • Опыт в SRE/DevOps и автоматизации инфраструктуры.
  • Знание Kubernetes, облачных платформ.
  • Практика внедрения чат-ботов для поддержки on-call и интеграций с мессенджерами.

Условия:

  • Работу в одной из крупнейших в России компаний в сфере e-commerce
  • Конкурентоспособную заработную плату с бонусами по результатам работы
  • MacBook Pro 13/16
  • ДМС и страхование от несчастных случаев (со 100% страхованием детей)
  • Гибридный график работы

Ключевые навыки

  • Управление проектами
  • Grafana
  • Prometheus
  • Incident Management
  • Monitoring
  • Английский — B2 — Средне-продвинутый

Задайте вопрос работодателю

Он получит его с откликом на вакансию

Где предстоит работать

Москва, Деловой центр, Деловой центр, Деловой центр, Москва-Сити, Пресненская набережная, 10блокС
Вакансия опубликована 17 ноября 2025 в Москве

Dream Job

Отзывы о компании
IT-компания
У работодателя есть аккредитация