КИБЕРВИКИПЕДИЯ
SECURITY VISION
Введите термин или слово
Adversarial AI Attacks
Adversarial-атаки — это преднамеренные манипуляции с входными данными, которые заставляют модель ИИ ошибаться. Они особенно опасны в системах компьютерного зрения, автономного вождения и биометрии.
Типы атак:
- Белый ящик (White-Box)
- Злоумышленник знает архитектуру модели и может точно рассчитать adversarial-пример.
- Пример: добавление незаметного шума к изображению, чтобы ИИ классифицировал панду как гиббон.
- Черный ящик (Black-Box)
- Атакующий не имеет доступа к модели, но может подбирать примеры методом проб и ошибок.
- Пример: обман системы распознавания лиц с помощью специальных очков.
- Физические атаки
- В реальном мире: стикеры на дорожных знаках, которые сбивают с толку автопилот Tesla.
Примеры последствий:
- Автономные автомобили— неверное распознавание знаков → авария.
- Биометрические системы— обход FaceID с помощью маски.
- Медицинская диагностика— ИИ пропускает опухоль из-за adversarial-шума.
Защита:
- Adversarial Training— обучение модели на подобных примерах.
- Обнаружение аномалий— фильтрация подозрительных входных данных.
- Квантование входов— снижение чувствительности к мелким изменениям.
Бытовые аналогии
- Оптическая иллюзия— картинка обманывает мозг, как adversarial-пример — ИИ.
- Фальшивые деньги— мелкие изменения, которые сбивают счетную машину.
- Камуфляж— животное маскируется, чтобы его не заметили.
- Шпионский шифр— сообщение выглядит нормально, но содержит скрытый смысл.
- Поддельная подпись— похожа на настоящую, но система верификации ошибается.