Рассказывает эксперт Сбера — Антон Михайлищев, IT-лидер трайба «Пульс-Каркас», платформа «Пульс», Сбер.
Антон, расскажите о платформе «Пульс» и её масштабах в Сбере?
«Пульс» — это цифровое решение от Сбера, разработанное в 2021 году для автоматизации HR-цикла.
Платформа доступна 24/7 с любого устройства и помогает решать задачи в любой локации — будь то офис, дорога или удалённая работа.
«Пульс» охватывает весь жизненный цикл сотрудника в компании: от найма и адаптации до офбординга. Внутри единого интерфейса объединены инструменты для внутренней коммуникации, HR-аналитика, сервисы на базе искусственного интеллекта, кадровые модули.
Такое интегрированное решение существенно повышает эффективность управления персоналом — как в контуре Сбера, так и в компаниях, использующих платформу.
Фактически «Пульс» выходит за рамки IT-системы. Это живая платформа, которой только в Сбере ежедневно пользуются 93% сотрудников.
С чем связаны резкие всплески нагрузки на платформу?
Во время выплаты годовой премии или крупных волн обучения нагрузка резко возрастает. Сегодня в систему могут заходить одновременно 250 000 человек, при этом Сбер ориентировался на 200 000 активных пользователей при её проектировании — очень важно чтобы каждый сотрудник получил быстрый отклик без задержек и ошибок.
Для этого мы предусмотрели несколько технических решений.
Первое — микросервисная архитектура. То есть, система разделена на независимые сервисы, и это предотвращает «цепную реакцию» сбоев.
Второе: при увеличении числа пользователей система автоматически подключает дополнительные серверные мощности и масштабируется горизонтально.
Третье: автоскейлинг контейнеров приложений (OpenShift, Kubernetes). Чем больше запросов, тем больше ресурсов выделяется, а когда нагрузка спадает — лишние мощности отключаются, чтобы не расходовать их зря.
«Пульс» стабилен, так как подстраивается под активность своих пользователей.
Если критическая нагрузка всё-таки случается — как ведёт себя система?
Мы внедрили многоуровневый мониторинг и систему быстрого реагирования. 24/7 отслеживаются ключевые метрики нагрузки: это 415 продуктовых и инфраструктурных сервисов платформы, «натравленных» на 5 тысяч хостов.
Мы отслеживаем 826 тысяч метрик и 363 тысячи триггеров, понимая, насколько важно, чтобы каждый мог вовремя оформить документ, пройти обучение или завершить задачу.
Все механизмы построены таким образом, чтобы пользователи даже не замечали, что система сильно нагружена. Если метрики приближаются к критическим значениям или требуется участие человека — система оповещает об этом дежурную команду инженеров, они подключаются в течение 15 минут. Масштабирование происходит автоматически.
Как быстро восстанавливаются данные в случае сбоя?
Для разрабатываемых сервисов предусмотрены механизмы feature toggle, обратной совместимости критичных сервисов и методика подбора оптимальной инфраструктуры. Конечно же, каждый релиз проходит нагрузочное тестирование, эмулируется работа тысяч пользователей одновременно. С помощью практик SRE анализируются слабые места – если что-то может замедлить систему, мы исправляем это заранее.
В 2024 году мы внедрили селф-сервисы по управлению базами данных. Теперь восстановление данных занимает не больше 2 часов.
Как организовано сопровождение и поддержка пользователей?
У нас трёхуровневая система поддержки.
Первая линия отвечает на базовые вопросы и помогает с настройками.
Вторая линия анализирует технические ошибки и разбирается в сложных кейсах.
Третья линия — это команда разработчиков, и подключается при необходимости изменений в коде. Кроме того, круглосуточно дежурит команда мониторинга, реагируя на проблемы до того, как их заметят пользователи.
Какие планы по развитию платформы «Пульс» в контексте возрастающей нагрузки?
Мы внедрили модель мультикомпани. Она позволяет нескольким организациям работать в едином пространстве, не создавая перегрузок. В одном тенанте сразу несколько клиентов, но логически их данные полностью разделены.
Таким образом, мы эффективно управляем ресурсами, сохраняя высокий уровень безопасности. В планах полностью автоматизировать масштабирование без ручных настроек в режиме реального времени, развить ещё больше скорости на меньшем объёме инфраструктуры и внедрить AI агенты, чтобы предиктивно мониторить процессы и исключить человеческий фактор.
«Пульс» растёт вместе с бизнесом. В Сбере мы создаём платформу про людей, здесь в работе сотен тысяч сотрудников и десятков компаний каждый день важна скорость и стабильность.