Руслан Рахметов, Security Vision
Кибербезопасность - это не только предотвращение киберугроз и реагирование на инциденты ИБ, это еще и обеспечение работоспособности информационной инфраструктуры, а значит, и всего бизнеса. Непрерывность работы ИТ-инфраструктуры - в большей степени задача подразделения ИТ, которое обеспечивает работу аппаратного и программного обеспечения, следит за функционированием серверов и центров обработки данных (ЦОДов), доступностью интернет-сервисов и облачной инфраструктуры. Однако в случае, когда происходит сбой или авария, коллегам из ИТ и ИБ следует объединять усилия для того, чтобы восстановить инфраструктуру и зависимые от неё бизнес-процессы как можно быстрее. В данной статье мы обсудим планирование и управление непрерывностью бизнеса и восстановление деятельности инфраструктуры после инцидентов, аварий, сбоев и катастроф, а также рассмотрим варианты автоматизации соответствующих ИТ и ИБ процессов.
Высокий уровень цифровизации бизнеса приносит не только преимущества в виде сокращения издержек и повышения скорости работы, но и повышает зависимость от надежности и устойчивости работы информационной инфраструктуры. С самого начала активной цифровизации бизнеса типичными страхами были пожары или затопления серверных помещений и ЦОДов, сбои систем кондиционирования и энергоснабжения, перебои доступа к интернет-услугам. Затем к ним добавились риски изъятия серверного оборудования и опечатывания помещений, а также действия инсайдеров, которые могли намеренно удалить информацию или вывести оборудования из строя. С середины 2010-х годов добавились еще и вирусы-шифровальщики и вайперы, которые могут либо зашифровать данные и требовать выкуп, либо безвозвратно уничтожить все данные. Атакующие действуют всё более агрессивно и продуманно, уничтожая также и резервные копии данных или шифруя их, а также незаметно искажают данные, делая их читаемыми, но бессмысленными и непригодными для использования. В результате, сегодня вопрос создания резервных копий, а также более общий процесс обеспечения непрерывности деятельности и восстановления работоспособности бизнес-процессов, становится вопросом выживания бизнеса, ведь если все данные окажутся уничтоженными, а бэкапы отсутствуют, то практически для любого бизнеса это равносильно краху. Для того, чтобы не допустить столь печального развития событий, важно заранее разрабатывать планы обеспечения непрерывности и восстановление деятельности, тестировать и актуализировать их, а также оперативно запускать работу по ним в случае наступления нештатных ситуаций.
Начнем с основных стандартов, касающихся обеспечения непрерывности деятельности и восстановления работоспособности бизнес-процессов:
· ГОСТ Р 53647 «Менеджмент непрерывности бизнеса»;
· ISO/IEC 27031:2011 "Information technology - Security techniques - Guidelines for information and communication technology readiness for business continuity" («Информационные технологии - Методы и средства обеспечения безопасности - Рекомендации по готовности информационно-коммуникационных технологий к обеспечению непрерывности бизнеса»);
· ГОСТ Р ИСО 22301-2021 «Надежность в технике. Системы менеджмента непрерывности деятельности. Требования»;
· ISO 22301:2019 "Security and resilience - Business continuity management systems - Requirements" («Безопасность и устойчивость - Системы управления непрерывностью бизнеса – Требования»);
· ISO 22313:2020 "Security and resilience - Business continuity management systems " Guidance on the use of ISO 22301" («Безопасность и устойчивость - Системы управления непрерывностью бизнеса - Руководство по использованию ISO 22301»);
· ISO/TS 22317:2021 "Security and resilience - Business continuity management systems - Guidelines for business impact analysis" («Безопасность и устойчивость - Системы управления непрерывностью бизнеса - Рекомендации по проведению анализа влияния на бизнес»);
· ISO/TS 22331:2018 "Security and resilience - Business continuity management systems - Guidelines for business continuity strategy" («Безопасность и устойчивость - Системы управления непрерывностью бизнеса - Рекомендации по разработке стратегии непрерывности бизнеса»);
· ISO/TS 22332:2021 "Security and resilience - Business continuity management systems - Guidelines for developing business continuity plans and procedures" («Безопасность и устойчивость - Системы управления непрерывностью бизнеса - Рекомендации по разработке планов и процедур обеспечения непрерывности бизнеса»);
· NIST SP 800-34 Rev. 1 "Contingency Planning Guide for Federal Information Systems" («Руководство по планированию деятельности в непредвиденных обстоятельствах для федеральных информационных систем»).
В перечисленных документах и в литературе, посвященной вопросам непрерывности деятельности и восстановления работоспособности, зачастую используются следующие определения и аббревиатуры:
· ЧС - чрезвычайное событие или нештатная ситуация, например, сбои, аварии, кибератаки, стихийные бедствия, катастрофы, террористические атаки, беспорядки, эпидемии и т.д. Сбои и аварии происходят в программном или аппаратном обеспечении, объектами кибератак становятся ПО, данные и устройства в инфраструктуре, а стихийные бедствия или катастрофы могут затронуть отдельные офисы компании, серверные помещения и ЦОДы;
· ОНиВД - обеспечение непрерывности и восстановление деятельности;
· Business Continuity Planning (BCP) - планирование непрерывности бизнеса, т.е. планирование и реализация мер для недопущения ЧС;
· Business Continuity Management (BCM) - управление непрерывностью бизнеса;
· Disaster Recovery Planning (DRP) - планирование восстановления после ЧС, т.е. планирование и реализация мер для восстановления бизнеса и инфраструктуры, если ЧС всё же произошло;
· Business Impact Analysis / Assessment (BIA) - анализ / оценка влияния на бизнес, т.е. анализ негативного воздействия ЧС на бизнес-процессы;
· Maximum Tolerable Downtime (MTD) или Maximum Tolerable Period of Disruption (MTPD) - максимально допустимый период прерывания деятельности, т.е. время простоя бизнес-процессов из-за ЧС, в течение которого ущерб для компании не превысит приемлемый уровень. При этом приемлемый уровень влияния простоя на бизнес заранее согласовывается и документируется для каждого бизнес-процесса, операции, актива, а по истечению MTD бизнес-процессы должны вернуться на уровень, предшествовавший ЧС;
· Recovery Time Objective (RTO) - целевое время восстановления, т.е. время, в течение которого данные, информационные системы и инфраструктура будут восстановлены из бэкапа, из резервного ЦОД, из облака и т.д.;
· Recovery Point Objective (RPO) - целевая точка восстановления, т.е. дата в прошлом, на которую можно восстановить данные, системы, инфраструктуру. RPO характеризует максимально приемлемый уровень потери данных после наступления ЧС, например, если процедура бэкапа информации с файлового сервера была завершена в 3 часа ночи, а ЧС случилось в 11 утра, то будет утеряна работа за 8 последних часов (в случае, если ЧС не затронуло созданные резервные копии);
· Work Recovery Time (WRT) - время на восстановление, т.е. временные затраты на тестирование и подготовку к возобновлению бизнес-процессов на нормальном уровне после восстановления данных, систем, инфраструктуры.
Процесс управления непрерывностью деятельности и восстановлением работоспособности бизнес-процессов можно рассмотреть с точки зрения PDCA-цикла Деминга:
1. Планирование:
1.1. Разработка стратегии и политики обеспечения непрерывности бизнеса и восстановления работоспособности, формирование и описание списка ЧС с категорированием по степени влияния и оценкой возможных последствий.
1.2. Анализ влияния на бизнес (BIA), включая проведение интервью и заполнение опросных листов владельцами бизнес-процессов и ответственными за информационные системы, которые смогут указать, как то или иное ЧС сможет повлиять на определенный процесс в контексте работы компании. Последствия ЧС могут лежать в плоскости финансовых, юридических, репутационных, операционных и иных рисков. Целью BIA будет формирование целевых значений метрик MTD, RTO, RPO, WRT для каждого бизнес-процесса, операции, актива (устройства, системы) при наступлении тех или иных ЧС. При проведении BIA нужно учитывать, что одна и та же информационная система может иметь разные метрики и даже разный уровень бизнес-критичности в зависимости от периода времени: например, в дни сдачи налоговой и финансовой отчетности бухгалтерские системы будут иметь максимальную критичность, а их MTD будет составлять буквально десятки минут; в другие периоды те же бухгалтерские системы будут иметь среднюю критичность и MTD в днях.
1.3. Разработка планов непрерывности бизнеса и восстановления работоспособности, процедур и регламентов резервного копирования, восстановления данных, систем, инфраструктуры (включая условия активации и деактивации планов по восстановлению, детальное описание шагов и временных нормативов по восстановлению).
1.4. Формирование команд по восстановлению (DR Teams), матриц коммуникации и эскалации на случай ЧС. Важно помнить, что разрушительное ЧС может привести к полной недоступности всех информационных ресурсов, интернета и даже электроэнергии, поэтому разработанные документы следует распечатать и затем регулярно проверять актуальность бумажных версий.
1.5. Оценка достаточности имеющихся мер и средств для обеспечения непрерывности бизнеса и восстановления работоспособности. В рамках такой оценки можно проанализировать эффективность имеющихся средств резервного копирования: возможно, следует перейти на LTO-стримеры и кассеты нового поколения, сформировать на складе запас критичных устройств и комплектующих, приобрести услуги DRaaS (Disaster recovery as a service, аварийное восстановление как услуга) и BaaS (Backup as a service, резервное копирование как услуга).
2. Выполнение:
2.1. Внедрение принятых мер и средств для обеспечения непрерывности бизнеса и восстановления работоспособности, включая технические и организационные меры.
2.2. Проведение обучения членов команд по восстановлению.
3. Оценка:
3.1. Тестирование планов непрерывности бизнеса и восстановления работоспособности, процедур и регламентов резервного копирования, восстановления данных, систем, инфраструктуры. Проведение теоретических киберучений (сбор DR Teams, совместный проход по документам, оценка готовности).
3.2. Проведение практических киберучений на случай ЧС с воспроизведением сценариев среднего уровня критичности: недоступность одной или нескольких информационных систем, определенных каналов связи, одного или нескольких филиальных офисов. Оценка достижения целевых значений метрик MTD, RTO, RPO, WRT.
3.3. Проведение практических киберучений на случай ЧС с воспроизведением сценариев высшего уровня критичности: полная недоступность всех офисов, полная недоступность ЦОД / облака, полная недоступность текущих данных, систем, инфраструктуры. Оценка достижения целевых значений метрик MTD, RTO, RPO, WRT.
4. Корректировка:
4.1. Устранение недостатков, выявленных на этапе оценки. Доработка документов, донастройка технических средств, обоснованная корректировка целевых значений метрик MTD, RTO, RPO, WRT с участием владельцев бизнес-процессов и ответственных за информационные системы, разработка компенсирующих мер.
4.2. Непрерывное совершенствование процесса управления непрерывностью деятельности и восстановлением работоспособности бизнес-процессов, использование средств автоматизации, оценка уровня зрелости процесса и разработка мер по его повышению. Отметим, что для оценки уровня зрелости процесса управления непрерывностью бизнеса можно использовать модель Business Continuity Maturity Model (BCMM), в которой описаны 5 уровней зрелости процесса. Для автоматизации процесса обеспечения непрерывности бизнеса можно воспользоваться продуктом Security Vision BCP, который предназначен для сбора информации о бизнес-процессах и ресурсах, от которых они зависят, систематизации планов обеспечения непрерывности, постановки и контроля задач на приведение инфраструктуры в соответствие с возможностью проводить регулярные тестирования планов с оценкой достижения ключевых показателей эффективности.