Искусственный интеллект в информационной безопасности

Искусственный интеллект в информационной безопасности


  |  Слушать на Spotify  |  Слушать на Яндекс Музыке  |   Слушать на Anchor.fm  |   Слушать на Breaker  |   Слушать на Google Podcast  |   Слушать на Pocket cast  |  

Руслан Рахметов, Security Vision 

Скорость развития и изменения киберпространства в последние 3-5 лет поражает воображение уже не только неискушенных пользователей, но и маститых специалистов в области ИТ и ИБ. Происходит экспоненциальное развитие даже не объема обрабатываемых данных, количества подключенных к интернету устройств или приложений/сервисов, но и самих концепций и технологий, а всеобъемлющая цифровизация и переход большинства бизнесов в онлайн в связи с пандемией лишь ускорили данный тренд.

Такая скорость обусловлена в том числе и развитием инструментов создания новых технологий и новых, более совершенных инструментов, что влечет за собой дальнейшее ускорение создания уже новых технологий и инструментов. Широкое использование высокоуровневых и сверхвысокоуровневых языков программирования, мощных фреймворков и сред разработки, развитие облачных инфраструктур и технологий виртуализации и контейнеризации позволяет «собрать» новое приложение в беспрецедентно короткие сроки. С такой же скоростью множатся и киберугрозы, поскольку злоумышленники используют те же высокоэффективные инструменты разработки, но в своих целях. Это выводит уровень киберпротиводействия на новый уровень: если раньше противостояние с злоумышленниками можно было описать как борьбу умов и настроенных средств защиты информации, то теперь это уже можно назвать полноценной «войной машин», в которой сражаются искусственные киберинтеллекты.

Разговоры о практическом применении искусственного интеллекта, в том числе и в информационной безопасности, ведутся уже давно, но на рынок данные инструменты вышли тогда, когда зрелость таких продуктов позволила применять их в корпоративных средах, точность работы стала оправдывать их стоимость, а возможности злоумышленников стали широки настолько, что эффективно и оперативно противостоять им стало возможно только с применением данной технологии.

Если же обратиться к истории, то предпосылками для создания концепции искусственного интеллекта стали научные изыскания в области построения математической модели искусственного нейрона и нейронной сети на базе наблюдений за живыми организмами и естественными нейронами. В 1943 году американские нейрофизиологи Уоррен Маккаллок и Вальтер Питтс в своей научной статье «Логическое исчисление идей, относящихся к нервной активности» предположили, что сеть, состоящая из аналогичных природным искусственных нейронов, может выполнять логические и математические операции. Выдающийся британский ученый Алан Тьюринг в 1948 году опубликовал статью «Разумные машины» (англ. "Intelligent Machinery"), а в 1950 году - работу «Вычислительные машины и разум» (англ. "Computing Machinery and Intelligence"), в которых описываются концепции машинного обучения и искусственного интеллекта. Сам же термин «Искусственный интеллект» был введен американским ученым-информатиком Джоном Маккарти в 1956 году. Это были одни из первых попыток «оцифровать» живой организм и представить живое существо как набор алгоритмов, которые можно проанализировать и воспроизвести.

С тех пор наука значительно продвинулась в вопросах создания искусственного интеллекта: знаковыми событиями можно назвать шахматную победу суперкомпьютера IBM Deep Blue над гроссмейстером Гарри Каспаровым в 1997 году и победу в игре го программы AlphaGo разработки Google DeepMind над профессиональным игроком Ли Седолем в 2016 году. При этом первая победа была достигнута в хорошо алгоритмизируемой шахматной игре, где для выигрыша достаточно знать все возможные комбинации и ходы, а вторая - за счет машинного обучения, который применялся AlphaGo для самообучения игре в го.

Итак, давайте дадим современные определения нескольким терминам, связанным с искусственным интеллектом (ИИ).

  • Искусственный интеллект (англ. Artificial intelligence, AI) предполагает выполнение информационными системами задач принятия решений и обучения, по аналогии с интеллектом живых существ

  • Нейронная сеть (англ. Neural network) - взаимосвязанное множество искусственных нейронов, выполняющих простые логические операции, обладающее способностью машинного обучения

  • Машинное обучение (англ. Machine learning, ML) - это техника обучения информационной системы на основе предоставленных наборов данных (англ. dataset) без использования предопределенных правил, является частным случаем искусственного интеллекта. Общей задачей машинного обучения является построение алгоритма (программы) на основании предоставленных входных данных и заданных верных/ожидающихся результатов - таким образом, процесс работы ML-системы разделен на первоначальное обучение на предоставляемых датасетах и на последующее принятие решений уже обученной системой.

Существует несколько способов машинного обучения, например:

  • Обучение с учителем (англ. Supervised learning) - это способ машинного обучения, в котором используются размеченные наборы данных (проклассифицированные объекты с выделенными характерными признаками), для которых некий «учитель» (человек или обучающая выборка) указывает правильные пары «вопрос-ответ», на основании чего требуется построить алгоритм предоставления ответов на дальнейшие аналогичные вопросы

  • Обучение без учителя (англ. Unsupervised learning) - это способ машинного обучения, в котором не используются размеченные наборы данных, не указаны правильные пары «вопрос-ответ», а от информационной системы требуется на основании известных свойств объектов найти различные взаимосвязи между ними

  • Обучение с частичным привлечением учителя (англ. Semi-supervised learning) - способ машинного обучения, в котором комбинируется небольшое количество размеченных наборов данных и большое количество неразмеченных. Такой подход оправдан тем, что получение качественных размеченных дата-сетов является достаточно ресурсоемким и длительным процессом

  • Обучение с подкреплением (англ. Reinforcement learning) - частный случай обучения с учителем, при котором «учителем» является среда функционирования, дающая обратную связь информационной системе в зависимости от принятых ею решений.

При этом в машинном обучении могут использоваться и другие алгоритмы, такие как байесовские сети, цепи Маркова, градиентный бустинг.

  • Глубокое обучение (англ. Deep learning) - это частный случай машинного обучения, в котором используется сложная многослойная искусственная нейронная сеть для эмуляции работы человеческого мозга и обработки речи (англ. natural language processing), звуковых (англ. speech recognition) и визуальных образов (англ. computer vision). Машинное зрение (computer vision) в настоящее время широко используются в системах обеспечения безопасности, контроля транспорта и пассажиров. Системы обработки речи (natural language processing) и распознавания слов (speech recognition) помогают голосовым ассистентам Сири или Алисе отвечать на вопросы пользователей.

  • Большие данные (Big Data) - большой объем структурированных и неструктурированных данных в цифровом виде, характеризующийся объемом (volume), скоростью изменения (velocity) и разнообразием (variety). Для обработки Big Data могут применяться специализированные программные инструменты, такие как Apache Hadoop / Storm / Spark, Kaggle, СУБД класса NoSQL. Считается, что для повышения business-value при использовании Big Data требуется перейти от разнородных данных к структурированной информации, а затем - к знаниям (сведениям). Обработанный, структурированный и размеченный dataset, полученный из релевантного массива Big Data, является необходимым (и одним из самых ценных) компонентом для машинного обучения в современных системах.

  • Глубокий анализ данных (Data mining) - структурирование и выделение полезной информации из разнородной и неструктурированной массы данных, в том числе из Big Data.

  • Нечёткая логика (англ. Fuzzy logic) - применение нестрогих правил и нечётких ответов для решения задач в системах искусственного интеллекта и нейронных сетях. Может применяться для моделирования поведения человека, например, для сужения или ограничения условий поиска ответа на вопрос в зависимости от контекста.

Рассмотрев основные определения и принципы, перейдем к вопросу практического применения систем искусственного интеллекта в кибербезопасности. Использование ИИ в ИБ обосновано прежде всего двумя факторами: необходимостью оперативного реагирования при наступлении киберинцидента и нехваткой квалифицированных специалистов по киберзащите. Действительно, в современных реалиях довольно сложно заполнить штатное расписание квалифицированными специалистами по ИБ с необходимым опытом, а масштабные инциденты ИБ могут развиваться стремительно: счет зачастую идет на минуты. Если в компании отсутствует круглосуточная дежурная смена аналитиков ИБ, то без системы оперативного автономного реагирования на киберинциденты будет затруднительно обеспечить качественную защиту в нерабочее время. Кроме того, злоумышленники перед своей атакой могут выполнить отвлекающий маневр - например, запустить DDoS-атаку или активное сетевое сканирование, отвлекая киберспециалистов. В таких ситуациях поможет система реагирования на киберинциденты на основе искусственного интеллекта, которая может одновременно обрабатывать большое количество событий ИБ, автоматизировать рутинные действия аналитиков ИБ и обеспечивать оперативное реагирование на инциденты без участия человека. Например, в нашем IRP/SOAR-решении Security Vision широко применяются механизмы искусственного интеллекта и машинного обучения: обученная на ранее решенных инцидентах платформа сама предложит аналитику подходящее действие по реагированию в зависимости от типа киберинцидента и его свойств, будет назначена оптимальная команда реагирования из коллег, обладающих наиболее релевантными знаниями, а в случае обнаружения нетипичных подозрительных событий система сама создаст соответствующий инцидент и оповестит о нем сотрудников ИБ-департамента. В решении IRP/SOAR Security Vision используются алгоритмы предиктивного реагирования на киберинциденты: обученная система позволяет спрогнозировать вектор атаки и её последующее развитие в инфраструктуре, показать тенденции, а затем автоматически пресечь вредоносные действия и дать советы аналитикам SOC-центра.

Системы защиты на основе искусственного интеллекта будут незаменимы для выявления аномалий в большом количестве событий информационной безопасности, например, путем анализа журналов СЗИ, данных из SIEM-систем или SOAR-решений. Эта информация, вкупе с данными уже отработанных и закрытых инцидентов ИБ, будет представлять собой качественный размеченный dataset, на котором системе можно будет легко обучиться.

Классические системы анализа отклонений построены, как правило, на некоторых заранее заданных операторами правилах: например, превышение объема специфического трафика, определенное количество неуспешных попыток аутентификации, некоторое количество последовательных срабатываний СЗИ. Системы же на базе искусственного интеллекта смогут принять решение самостоятельно, «без оглядки» на правила, ранее созданные сотрудниками ИБ, которые, возможно, уже потеряли актуальность и не учитывают изменившуюся ИТ-инфраструктуру.

Детектирование аномалий может помочь в защите пользовательских данных - например, банковский интернет-сервис может собирать и анализировать данные о паттернах (характерных признаках, шаблонах) работы клиентов с тем, чтобы оперативно выявлять скомпрометированные учетные записи. К примеру, если пользователь на протяжении последнего года подключался к сервису с российского IP-адреса по будням в рабочее время и использовал браузер Internet Explorer, то в случае подключения с территории Китая с использованием браузера Mozilla Firefox в ночное время следует, возможно, на время заблокировать учетную запись этого пользователя и отправить ему оповещение. Финансовые организации могут использовать системы машинного обучения и искусственного интеллекта также для проведения оценки (скоринга) заемщиков, анализа финансовых рисков, в анти-фрод системах.

Другой моделью использования систем искусственного интеллекта в кибербезопасности является работа с внутренними нарушителями: зная типичное поведение пользователя, система может отправить предупреждение аналитикам ИБ в случае существенного изменения модели работы сотрудника (посещение подозрительных сайтов, длительное отсутствие за рабочим ПК, изменение круга общения при переписке в корпоративном мессенджере и т.д.). Системы защиты, оснащенные компьютерным зрением и обработкой речи, смогут оперативно оповещать охрану о попытках прохода через проходную посторонних или сотрудников по чужим пропускам, анализировать рабочую активность сотрудников с помощью веб-камер, оценивать корректность общения менеджеров с клиентами по телефону.

При этом не следует забывать и то, что системы на базе искусственного интеллекта используют и киберпреступники: известны мошеннические приемы использования Deep fake (создание реалистичного виртуального образа человека) для обмана анти-фрод систем, подделки голосов для мошеннических звонков родственникам атакованных лиц с просьбой перевести деньги, применения телефонных IVR-технологий для фишинга и хищения денежных средств. Во вредоносном ПО также используются элементы искусственного интеллекта, которые позволяют атакующим гораздо быстрее повышать свои привилегии, перемещаться по корпоративной сети, а затем находить и похищать интересующие их данные. Таким образом, технологии, ставшие доступными широкой публике, используются как во благо, так и во вред, что означает, что бороться с такими подготовленными киберпреступниками можно и нужно с применением самых совершенных средств и методов защиты.

Интересные публикации