Руслан Рахметов, Security Vision
В последние годы отечественные компании, следуя мировому тренду, делают ставку на искусственный интеллект для защиты от киберугроз. Конечно, давно существуют системы на основе правил и логики (Rule-based + Expert Systems), которые работают как чётко заданные логики поведения (IF-THEN). Такие формулы можно встретить, например, в IDS-системах, в SOAR для ранжирования алертов и в SIEM для корреляции событий в реальном времени. Сейчас такие системы, конечно же, используются, они привычны, понятны, управляемы, но они все чаще комбинируются с ИИ-инструментами для ускорения и упрощения обработки данных.
В ИБ используется множество видов ИИ, каждый — со своими задачами, алгоритмами и преимуществами. Поэтому мы выделим 3 группы и рассмотрим примеры применения и то, как устроена логика их работы:
1) Графовые ИИ (Graph AI) и БД, которые анализируют связи между сущностями, включая пользователей, IP, файлы, процессы и т.д. для обнаружения сложных APT через цепочки событий, построения атаки на графе (например, Neo4j + MITRE ATT&CK) или графа достижимости (SV AM) и маршрута нарушителя (SV SOAR) c визуализацией lateral movement в сети.
Представьте, что вы ищете самый короткий путь от дома до работы, пересаживаясь с одной линии метро на другую. Чтобы понять, как лучше доехать, вы строите в голове карту маршрута с пересадками, а если где-то есть пробка или ремонт – ищете обходной путь. Графовые ИИ работают примерно так же, только вместо станций метро они «рисуют» в схеме компьютеры, пользователей, IP-адреса, файлы и процессы. Маршрут — это, например, путь злоумышленника по сети организации или граф достижимости на основе карты сети компании.
2) Машинное обучение (ML, Machine Learning) на структурированных данных, алгоритмы, обучающиеся на метках или паттернах в числовых данных (логи, телеметрия, сетевые показатели, поведенческие признаки). Такие модели, как Random Forest, XGBoost, SVM, K-Means, DBSCAN и Decision Trees используются для обнаружения DDoS и бот-сетей, анализа сетевого трафика и автоматического определения вредоносных сэмплов (malware classification).
Представьте, что вы зашли в магазин, где умная камера отслеживает, как вы себя ведёте: как ходите по рядам, что берёте с полок, за сколько времени доходите до кассы и т.д. Со временем система понимает, кто ведёт себя как обычный покупатель, а кто – как потенциальный вор. Для покупателей она поможет выстроить оптимальную логистику и предложит системе персонализированные скидки, а вора поможет поймать, сообщив охраннику о возможном инциденте. Так работает и машинное обучение на структурированных данных: анализирует логи, телеметрию, сетевые пакеты и поведенческие сигнатуры и находит аномалии и подозрительные паттерны.
В общем случае в современных ИБ-решениях можно увидеть, как нейросети используются для поведенческого анализа действий пользователей (UEBA), анализа активности на конечных точках (EDR/XDR) и предсказания инцидентов по поведенческим паттернам и рискам (например, вероятность увольнения сотрудника по изменению его поведения с файлами и электронной почтой). ML модели можно также разделить на 2 группы в зависимости от того, как они использую входящие данные:
– Модели «без учителя» (Unsupervised ML) или обучение с подкреплением (Reinforcement Learning), которые обучаются через награду и наказание (как в игре), или исследуют трафик в режиме мониторинга какой-то время для поиска аномалий в будущем. Так происходит, например, оптимизация стратегии реагирования в симуляциях (MITRE Caldera), автоматическое управление политиками NGFW или поиск слабых мест в защите через динамические сценарии для Red Team.
Представьте, что у вас есть куча писем, и каждое уже подписано: «спам» или «нормальное письмо, ИИ анализирует, какие слова, отправители или заголовки чаще встречаются в спаме, а какие – только в «правильных» письмах, а спустя какое-то время сервис учится сам распознавать новые спам-письма, даже если раньше их не видел. Так работает обучение «с учителем», поскольку начальные письма были размечены заранее. Как ребёнку показывать 100 фото кошек и собак, где под каждой написано, кто изображен на картинках. Ребенок запоминает отличия и потом правильно называет новых животных.
– Модели «с учителем» (Supervised ML) и глубокие нейросети (Deep Learning), в том числе LSTM, GRU, CNN, обучающиеся на временных рядах и последовательностях событий. Они могут обучаться на данных об активностях ботнет-сетей, DDoS-активностях, работе ВПО и действиях злоумышленников, как это устроено в модуле управления инцидентами с применением результатов работы киберполигона. Отдельно можно выделить рекомендательные системы (Recommender AI), предлагающие решения или оценки, основанные на предыдущем опыте и поведении других систем/пользователей. Так, например, готовятся рекомендации по реагированию на инциденты кибербезопасности (SV SOAR) и происходит автоматическое обновление политик брандмауэров / ACL.
Представьте, что вы открываете коробку, где свалено всё подряд: провода, батарейки, старые игрушки, бумаги и начинаете группировать по сходству: провода к проводам, бумагу – отдельно, игрушки – в другую стопку. Модель «без учителя» не знает заранее, где правильный ответ, она сама находит группы, паттерны, связи в данных — как бы разбирается по ходу. Это как если бы ребенок из прошлого примера начал сам группировать их: «все пушистые», «все с ушами вверх», «все полосатые» и в итоге бы сформировал два кластера данных – кошки и собаки.
3) Большие языковые модели (LLM, Large Language Model) – ещё один из инструментов в широком арсенале, применяемого в информационной безопасности. Языковые модели отличает контекстуальное понимание и анализ нестандартизированных данных. Большинство систем ИБ работают с структурированными данными: алертами, логами, правилами корреляции. Но LLM умеют анализировать неструктурированный текст, такой как: отчёты об инцидентах, письма, обсуждения в даркнете, человеческие описания «что-то пошло не так» и т.д.
При этом, конечно, есть и недостатки, самый крупный их которых – возможность «галлюцинирования», когда система уверенно выдает ложные или вымышленные данные, если им не хватает контекста. В кибербезопасности это может привести к ложным срабатываниям, неверным отчётам и ошибкам в реагировании. Решением будут архитектуры с валидацией данных и подходы RAG (Retrieval-Augmented Generation), при которых модель ссылается только на проверенные источники.
Представьте себе друга или подругу, которые прочитали миллионы книг, статей, писем, чатов и сценариев, и вы просите их написать поздравление на день рождения для бабушки. Поскольку было прочитано много текстов на эту тематику, друзья могут просто «сгенерировать» текст на основе похожих из памяти. Ваш друг не запомнил каждое поздравление дословно, а научился предсказывать, какие слова обычно идут дальше в открытках и просто сочиняет из головы нечто вроде: «Дорогая бабушка, пусть каждый день будет наполнен светом, как твоя улыбка». Это похоже также на то, как работает клавиатура на современном смартфоне, которая предугадывает какие будут следующие слова в набираемом сообщении. И точно также работают большие языковые модели, которые пытаются сгенерировать текст на основе миллиардов почитанных ранее текстов.
Сегодня искусственный интеллект становится неотъемлемой частью средств защиты информации. Вместо одного «всевидящего» алгоритма появляются целые экосистемы специализированных моделей (от графов до языковых моделей, от деревьев решений до нейросетей), каждая из которых усиливает определённый этап жизненного цикла инцидента: от раннего обнаружения до анализа и автоматического реагирования. Современные ИБ-системы всё чаще работают как симфония моделей, где правило, паттерн, аномалия и контекст дополняют друг друга, снижая нагрузку на аналитиков и ускоряя принятие решений.
При этом важно понимать, что ИИ — это не «волшебная кнопка», а инструмент, требующий валидации, адаптации и ответственного внедрения. Именно комбинация экспертных знаний, прозрачных моделей и проверенных источников делает применение ИИ в кибербезопасности не просто модным трендом, а реальной силой в противостоянии современным угрозам.