Руслан Рахметов, Security Vision
Большие языковые модели (LLM) в кибербезопасности — это продвинутые системы искусственного интеллекта, обученные на огромных массивах текстовых данных для понимания, анализа и генерации человеческого языка. В сфере информационной безопасности (ИБ) они применяются для автоматизации анализа угроз, ускорения реагирования на инциденты и помощи специалистам в обработке сложных данных. LLM способны понимать запросы на естественном языке, выявлять скрытые угрозы в логах и отчетах, а также генерировать рекомендации, что делает их незаменимым инструментом для современных центров мониторинга безопасности (SOC) и DevSecOps-команд.
Оглавление:
1. Что такое LLM в кибербезопасности и каковы их преимущества?
2. Пять ключевых аспектов применения LLM в ИБ
3. Основные типы LLM-агентов для решения задач безопасности
4. Практические примеры использования LLM в продуктах Security Vision
5. Когда использовать LLM, а когда — Machine Learning (ML)?
6. Заключение: лучший результат дает комбинация технологий
7. FAQ: Часто задаваемые вопросы
Что такое LLM в кибербезопасности и каковы их преимущества?
В текущей статье мы рассмотрим применение больших языковых моделей (LLM, Large Language Model) и их «братьев» из мира искусственного интеллекта (AI, Artificial Intelligence) в решении задач кибербезопасности, рассказ о которых мы начали в прошлый раз. Для начала мы приведем примеры использования подобных инструментов, а затем – погрузимся детальнее в LLM агенты и чат-боты.
В отличие от других способов аналитики больших данных (векторный анализ, машинное обучение «с учителем», деревья решений и т.д.) Модель может понять неформальные описания и даже иронию, что особенно полезно для анализа инсайдерской активности, угроз из открытых источников, текст из которых можно скопировать, и в целом снижает входной порог для новых сотрудников SOC. Чем быстрее сотрудник приближается к анализу данных, тем выше общая скорость реагирования.
LLM можно «дообучить» под конкретную инфраструктуру, политику безопасности и/или базу знаний. Например, можно загрузить внутрь собственные логи, алерты, политики, использовать в цепочках MISP, MITRE ATT&CK, Sigma Rules и даже адаптировать модель под применения терминологии вашей компании.
Пять ключевых аспектов применения LLM в ИБ
Проанализировав, как работают эти модели, и применив множество вариантов в собственных продуктах, мы выделили 5 основных аспектов:
• Натуральный язык
• Контекстная интерпретация
• Автоматизация процессов
• Обучение на внутренних данных
• Мультимодальность
Специалисты могут формулировать запросы на обычном языке (Пример: «Покажи все инциденты с возможной утечкой за последнюю неделю»), и LLM поймет и обработает запрос, поможет анализировать необработанные логи и выделять ключевые события, ускорит TTP-поиск, разметку инцидентов и генерация отчётности. Современные модели обрабатывают текст, изображения, даже сетевые диаграммы, умеют анализировать целые сайты и искать данные в сети, обеспечивая мультимодальность и удобство.
Основные типы LLM-агентов для решения задач безопасности
В современных условиях все чаще используют различные языковые модули, как облачные, так и локальные. Например, Gemini (Google), Copilot (Microsoft), ChatGPT (OpenAI), Claude 3 (Anthropic), LLaMA, Mistral, Falcon и специализированные модели, встроенные в ИБ-решения. Конечно же, с точки зрения кибербезопасности и близости к чувствительным данным компании предпочитают использовать локально развернутые модели (например, последние 3 в списке выше) вместо тех, что доступны в сети по подпискам. Актуальность применения именно локальных моделей была доказана, когда некоторые сервисы были замедлены или ограничены на различных территориях.
В своей основе LLM-агенты – это системы, которые, в отличие от стандартных чат-ботов, обладают дополнительными компонентами, наделяющими их способностью к автономным действиям. Ключевое отличие заключается в наличии цели и способности самостоятельно планировать и выполнять шаги для ее достижения. Мы предлагаем теперь разделить эти модели на группы, о которых расскажем подробнее:
• Аналитические агенты собирают, структурируют и интерпретируют логи и «сырые» события, отвечают за обработку и категоризацию инцидентов, выявляют аномалии, структурируют информацию. Работают такие агенты, как домашний бот-бухгалтер, которому вы даёте список всех ваших расходов за месяц, включая чеки, банковские выписки, заметки от руки – он сам классифицирует всё по категориям (еда, транспорт, развлечения), показывает подозрительные траты и делает диаграмму расходов. Только вместо финансовых потоков – данные об инцидентах.
• Обучающие агенты проводят симуляции фишинга, отвечают на вопросы по политике безопасности и в целом обучают сотрудников. Они генерируют тренинги и симуляции фишинга, отвечают на запросы пользователей и работают подобно репетиторам. Представьте себе подготовку к экзамену по ПДД, в которой обучающий агент не только объясняет, но и предлагает пройти ряд тестов, находит ваши слабые места и даёт советы. Обучающий агент можно также представить как бота, помогающего в готовке. Вы просите его: «Научи готовить лазанью. У меня есть духовка и микроволновка», а он предлагает для начала потренироваться на макаронах с соусом бешамель, потому что это проще и похоже по технике.
• SOC-ассистенты помогают оперативным командам, объясняют инциденты, предлагают шаги реагирования, подсказки для реагирования, генерируют динамические плейбуки и автоматизируют оформление тикетов и отчётов. Представьте себе домашнего диспетчера-бота, которому вы можете задавать вопросы по ведению хозяйства и получать полезные советы. Вы скажете ему: «У нас перегорела лампочка и сломался душ» — бот задает уточняющие вопросы, предлагает порядок действий, сообщает, кто дома умеет это чинить, или вызывает мастера, например: «Сначала отключи электричество, потом достань лампу. Хочешь, закажу новую с доставкой?».
• DevSecOps-ассистенты, которые проводят анализ конфигураций IaC на наличие «дыр» в безопасности, объясняют риски, связанные с изменениями в коде. Вы можете попросить подобного агента, например, «Проверь этот Kubernetes-манифест на небезопасные настройки» и он ускорит CI/CD процесс компании.
• Threat Intel агенты проведут анализ и структурирование данных из отчётов об угрозах (например, Mandiant, Kaspersky, CISA), извлекут индикаторы компрометации (IoC) из текстов бюллетеней и могут объединить данные из разных источников (RSS, форумы даркнета, X, Pastebin и др.).
• Red/Blue Team агенты, c одной стороны, моделируют атаки, симулируют взломы и создают фишинговые письма, а с другой – помогают выявить ложные тревоги, предлагают шаги защиты и объясняют инциденты понятным языком. Такие LLM-модели отвечают за создание фишинговых писем, реалистичных команд атак, симуляцию атакующих сценариев с учетом MITRE ATT&CK и распознавание ложноположительных срабатываний и расширение контекста инцидента за счёт анализа внешних источников.
Практические примеры использования LLM в продуктах Security Vision
Различные виды агентов уже используются в решениях Security Vision, в частности, в модуле SOAR:
• Рассчитывают скоринг False Positive: модель обучается на данных по закрытым инцидентам. При поступлении нового инцидента система оценивает, насколько он схож с ранее закрытыми ложноположительными случаями, и выдает результат в виде процентного соответствия.
• Ищут похожие инциденты: модель анализирует контекст инцидента, ищет и показывает похожие кейсы. Это позволяет аналитику как увидеть подобные инциденты, которые также сейчас в работе, так и посмотреть, как обрабатывались схожие ситуации в прошлом.
• Предлагают рекомендации по истории действий: модель подскажет аналитику, какие действия выполнялись на разных фазах при расследовании подобных инцидентов в прошлом. Таким образом новый сотрудник SOC быстрее пройдет адаптацию, даже если у него нет готовых инструкций, за счет доступа к накопленным данным о том, как обрабатываются инциденты.
• Дополняют рекомендации по базе знаний: кроме документации, аналитик может получить в чате рекомендацию о том, какие действия следует выполнить для конкретного инцидента на конкретной фазе реагирования. Модель, обученная на лучших практиках по реагированию на киберинциденты, даст краткий ответ с учетом всего контекста инцидента.
• Помогают с поиском по документации: теперь вопрос по продукту можно задать модели и получить ответ в чате.
Таким образом, LLM становятся частью автоматизированных цепочек действий, включающих генерацию описания инцидента, обоснование выбранных шагов реагирования, подготовку отчётов для разных ролей, от технических до CISO. Теперь вместе с классическими шаблонами в SOAR система формирует детализированный отчёт, где объяснено, что произошло, почему это важно и какие действия были предприняты — на «человеческом» языке.
Когда использовать LLM, а когда — Machine Learning (ML)?
Воспользуйтесь набором советов, чтобы понять, где LLM-модели дадут более качественный результат, чем рассмотренные нами ранее модели машинного обучения.
Выбирайте LLM, если:
• нужно объяснение инцидента или отчёт;
• требуется взаимодействие с оператором на естественном языке;
• вы проводите симуляции фишинга или ищите помощи в тренингах.
ML покажут лучшие результаты, если:
• нужно выявить аномалию в большом потоке событий;
• нужно провести классификацию событий по известным признакам.
Заключение: лучший результат дает комбинация технологий
Самой лучшей практикой будет комбинирование технологий, как это делается в модулях платформы. Например, ML-модель может выявить аномалию, когда IP-адрес повёл себя нетипично, а LLM объяснит аналитику детали, например, что этот адрес относится к сотруднику из отдела маркетинга, но подключение произошло из Вьетнама в 2 ночи – значит, это возможный инцидент.
В дополнение к текущему обзору мы подготовили чёткое сравнение с фокусом на информационную безопасность в виде таблицы с различными аспектами применения. Вы можете скачать его ниже или с наших ресурсов, посвященных модулям SOAR и UEBA.
FAQ: Часто задаваемые вопросы