Привет!
Меня зовут Андрей Синицын, и в VK я руковожу командой, которая занимается эксплуатацией мессенджеров. Миллионы людей ежедневно используют продукты, которые мы поддерживаем — и это не самая тривиальная задача.
Когда-то мы были небольшой командой, но у нас растут нагрузки, расширяется функциональность, и наша команда очень ждет, возможно, именно вас.
От нас действительно зависит очень многое: решения, которые мы внедряем для обеспечения надежности и стабильности наших сервисов, используют миллионы людей каждый день.
Помимо ежедневных задач SRE вам придется глубоко погружаться в экосистему VK, интегрировать свои решения с другими командами и обеспечивать бесперебойную работу наших сервисов в любых условиях.
Мы обязательно выделяем время на разработку, анализ и имплементацию архитектурных требований, так что решать рутину целый день точно не придется. Также мы горячо приветствуем ведение документации, передачу опыта коллегам и саморазвитие. Посещение конференций и профильных мероприятий также заложено в бюджете.
Чем надо будет заниматься:
-
обеспечивать бесперебойную работу наших сервисов в режиме 24/7. Мы
стараемся жить по принципу «Failure is not an option»;
-
масштабирование сервисов под нагрузку и поиск узких мест. Задачи
оптимизации предполагают погружение на самый низкий уровень;
-
реакция на мониторинги и нештатные события. Мы должны поддерживать
высокий уровень работы наших сервисов — и поэтому мы должны уметь
среагировать на любое нештатное поведение;
-
автоматизация всего и вся. Чем меньше ручной работы, тем лучше! Поэтому мы стремимся автоматизировать как можно больше рутинной деятельности;
-
поддержка релизного цикла и минимизация времени деплоя. Раскатить
приложения, работающие для миллионов пользователей, не всегда тривиальная задача. Одна из важнейших целей команды — сделать релизы быстрыми и безопасными.
С чем мы работаем:
- более 1000 серверов, 6 ДЦ в разных геолокациях;
-
языки разработки: C++/Golang/Python;
-
полный стек оборудования и виртуализации: от bare metal до Kubernetes;
-
puppet, ansible;
-
prometheus, Grafana;
-
nginx, haproxy;
-
mySQL, PostgreSQL, Tarantool, Clickhouse;
-
gitlab CI.
Что мы ждем от вас:
- опыт работы с ОС Linux от 3 лет и более — на интервью мы поговорим обо всем, от syscall до cgroups и namespaces;
- понимание принципов работы с Сетью — мы уверены, что вы точно знаете, чем отличаются L3, L4 и L7, а также назовете практическую разницу между DROP и REJECT;
- опыт работы с СУБД (основные для нас MySQL и PostgreSQL) — высокая доступность, планы запросов, оптимизация работы сервера, метрики и мониторинг;
- системы управления конфигурациями, деплоймент и шаблонизация, ожидаем, что вы знакомы с Ansible/Puppet или Salt, а также использовали Helm;
- мониторинг — мы ожидаем, что вы знакомы с Graphite, Prometheus или Grafana;
- CI/CD — считаем, что вы знакомы с непрерывной поставкой кода и практиковали это ранее.
Будет плюсом:
- RHEL / CentOS / Almalinux — мы используем именно это семейство ОС;
- возможность решать поставленные задачи на Python или Golang;
- продуктовый опыт работы с Clickhouse, MongoDB или Redis.