| Слушать на Google Podcasts | Слушать на Mave | Слушать на Яндекс Музыке |
Руслан Рахметов, Security Vision
Передача данных важна для стабильной работы компании, поэтому при защите конфиденциальных данных очень важно, чтобы DLP-система вмешивалась только в тот трафик, утечка которого может привести к проблемам. Копирование презентации на flash-накопители, отправка электронного письма подрядчику, совместная работа над документом прямо в облаке – это примеры привычных бизнес-процессов, которые не должны быть нарушены, если они полностью легитимны. Поэтому продолжение нашего знакомства с работой DLP-систем посвящена возможностям анализа трафика: как система защиты от утечки данных определяет необходимость блокировки действий сотрудников.
После того как данные с контролируемых каналов попадают в ядро DLP-системы, они подвергаются процессу анализа и сравнения с теми шаблонами данных, которые ваша компания выбрала защищать. По результату анализа система в нужный момент запускает процессы блокировки, которые могут быть связаны с работой программ, драйверов и действиями пользователей.
В зависимости от типа данных сами процессы отличаются, поэтому для детального разбора попробуем классифицировать их:
1) архивы (например, 7z, bzip, tar, rar, zip);
2) базы данных (ace, mdb, accdb, dmp, mxl, vcs, full и др.);
3) файлы мультимедиа (mov, flac, wmv, mp3, wav, avi, gif и др.);
4) документы (ppt, pptx, odp, xls, xlsx, ods, doc, docx, odt, pdf, txt, json, xps, djvu и др.);
5) исполняемые файлы, библиотеки, конструкторские файлы и другие типы данных.
Обработка сигнатур
Это первый механизм, который анализирует файлы на пример соответствия определённым сигнатурам (форматам). Как таковой анализ содержимого ещё не запускается, но, согласно политикам ИБ, передача данных определённого формата может быть заблокирована и без анализа (например, передача архивов или файлов конструкторской документации).
Это самая первая технология, которая появилась в DLP-решениях, но, несмотря на свой возраст, сигнатурный анализ не устареет никогда, потому что некоторые типы данных просто невозможно проанализировать другими способами.
Обработка архивов
Обычно, DLP-системы анализируют не сами архивы, а данные, которые находятся внутри. Поэтому первый набор технологий посвящён распаковке архивов (и их вложений, если требуется), а анализ их содержимого запускается следующим этапом.
Тем не менее, встречаются архивы защищённые паролем (и тем самым зашифрованные), поэтому запускаются дополнительные процессы: классически, DLP-системы не занимаются перебором паролей, на это требуются дополнительные вычислительные мощности, поэтому для эффективной защиты к процессу подключаются аналитики в ручном режиме или организационные меры (например, для отправки подобного архива за пределы периметра компании формируется письмо с указанием необходимости этой отправки и пароля, чтобы сотрудник ИБ подразделения смог принять взвешенное решение и запретить отправку если необходимо).
Обработка баз данных
Для защиты содержимого БД и таблиц обычно применяют технологию цифровых отпечатков. Для работы этой технологии в ядро DLP загружаются фрагменты БД, которые нужно защищать от утечки, а данные из трафика сравниваются с образцами. В случае полного или частичного совпадения (согласно политикам ИБ) запускаются процессы блокировки трафика.
Обработка видео
Современные DLP-системы пока ещё не умеют анализировать видеофайлы «на лету», однако точечный мониторинг можно осуществить на основе сигнатурного анализа, а для других типов медиафайлов существуют отдельные инструменты (см. ниже).
Обработка аудио
Аудиофайлы могут переводиться в текст при помощи специальных движков голосового анализа (Google speech-to-text, решения ГК ЦРТ и др.), далее производится анализ полученного текста. Немногие DLP-системы могут похвастаться встроенными возможностями для анализа, или интеграциями со сторонними решениями. Поэтому подобные интеграции часто приходится разрабатывать уже на месте, с применением, например, возможностей SOAR - платформ или с привлечением дополнительных разработчиков со стороны вендоров DLP-систем.
Так, например, при использовании IP-телефонии, совместимой с распознаванием голоса, можно передавать текстовые расшифровки звонков на анализ в DLP.
Обработка изображений
Картинки могут быть важны сами по себе или из-за текста, который они содержат. Для анализа картинок современные DLP используют возможности машинного обучения (например, обучение с учителем), в таком случае изначально в ядро анализа загружается набор картинок, передача которых будет мониториться с особой тщательностью. Это могут быть чертежи (черные линии на белом фоне), изображения людей (при помощи поиска лиц на фото), паспорта и кредитные карты (по набору значков банков и других элементов) и т.д.
Дополнительно к анализу картинок подключается технология оптического распознавания текста (ABBYY OCR в продукте Fine Reader, Google Cloud Vision в продукте Tesseract), которая извлекает текст из изображения и передаёт его в модули анализа текста (см. ниже).
Так, например, при использовании корпоративной Google DLP при передаче фотографий кредитных карт через GMail, картинка может распознаваться автоматически, а цифры на ней закрашиваться для всех получателей.
Обработка текста
Многие DLP-решения используют технологию регулярных выражений, которая позволяет описать важные фрагменты текста при помощи формул (например, ^((8|\+7)[\- ]?)?(\(?\d{3}\)?[\- ]?)?[\d\- ]{7,10}$ для поиска в тексте номеров мобильных телефонов). Таким способом можно защищать заранее понятные комбинации в номерах паспортов, кредитных карт, водительских удостоверений, СНИЛС и др. документов.
Более того, с применением различных словарей и машинного обучения для поиска похожих текстов можно детектировать передачу документов, посвящённых определенной тематике (бухгалтерия, коммерция, поиск работы, отраслевые тексты и др.).
Таким образом, в зависимости от продвинутости DLP-системы и применяемых в ней технологий можно в автоматическом режиме понять содержимое многих файлов, чтобы обеспечить их безопасность. Это может быть полезно не только для защиты от злоумышленников, которые «сливают» базы данных клиентов или коммерческую тайну, но и от случайных событий, ведь, наверное, каждый из вас уже хотя бы раз в жизни отправлял письмо не тому получателю.