Руслан Рахметов, Security Vision
В начале 2024 года финансовый сотрудник в гонконгском филиале международной инжиниринговой компании Arup перевел мошенникам 25.6 миллионов долларов, и это не было результатом взлома, фишингового письма или вируса. Сотрудник перевел деньги, потому что получил прямое указание от финансового директора компании из Лондона, которого он видел собственными глазами на групповом видеозвонке вместе с другими старшими руководителями, но была одна проблема… Все участники этого звонка, кроме самой жертвы, были дипфейками, созданными аватарами, которых злоумышленники использовали для атаки.
Этот инцидент – яркая демонстрация того, что дипфейк (Deepfake) перестал быть развлечением или научной фантастикой и превратился в мощный инструмент мошенничества с использованием искусственного интеллекта.
В сегодняшней статье мы разберем эти высокотехнологичные подделки видео-, аудио- и фото-контента, созданные с помощью искусственного интеллекта, которые с каждым днем становятся все более неотличимыми от реальности, а также способы защититься от злоумышленников. А чтобы эффективно бороться с врагом, нужно понимать, как он устроен: сам термин Deepfake — это гибрид двух английских слов: deep learning (глубокое обучение, раздел искусственного интеллекта) и fake (подделка). Он вошел в широкий обиход в 2017 году, когда пользователь на платформе Reddit начал публиковать синтетические видеоролики, что и привлекло внимание общественности к этой технологии.
В основе создания дипфейков лежат сложные нейросетевые модели, которые можно разделить на 2 группы:
- Автоэнкодеры (Autoencoders), которые работают как художник и скульптор в мире технологий. Для начала нейросеть (энкодер) «изучает» тысячи фотографий и видео одного человека (например, Тома Круза), чтобы «сжать» все его уникальные черты лица (разрез глаз, форма носа, мимика) в компактный набор ключевых характеристик. Затем, другая нейросеть (декодер) обучается обратному (брать этот сжатый набор характеристик и воссоздавать из него полноценное лицо). Когда же обе модели обучены, мошенники берут видео жертвы, пропускают его через энкодер, чтобы получить структуру движения, а затем «накладывают» на эту структуру характеристики Тома Круза, используя его декодер. Такая технология лежит в основе нашумевшего приложения для замены лиц на фотографиях – FaceSwap.
- Генеративно-состязательные сети (Generative Adversarial Networks, GAN) работают более сложно, но основаны на применении также двух моделей, которые можно сравнить с художником и критиком, которые соревнуются друг с другом: модель «Генератор» (художник) берет случайный «шум» и пытается сгенерировать изображение, например, человеческое лицо (сначала у него получается ужасно), в то же время «Дискриминатор» (критик) изучает как настоящие лица из базы данных (обучающей выборки), так и неумелые поделки «Генератора». Генератор рисует лицо и показывает Критику, тот «отвечает», что это подделка потому-то (например, размыты уши, на руке на фото 6 пальцев, глаза смотрят в разные стороны, как у Пеннивайза в фильме «Оно» и т.д.). Генератор вносит правки и рисует новое лицо, показываю результат все более придирчивому критику до тех пор, пока его все не устроит. Этот процесс повторяется миллионы раз. Именно эта «состязательная» природа GAN является причиной, почему дипфейки становятся лучше с экспоненциальной скоростью: каждый новый дипфейк «учится» на тех ошибках, которые мы используем для их распознавания (например, неестественное моргание или артефакты на краях).
Для начала дипфейки применялись для фотографий, сейчас нейросети уже умеют генерировать видео, но угроза распространяется и на аудиоматериалы: технологии синтеза речи (Text-to-Speech, TTS) и клонирования голоса позволяют создавать пугающе реалистичные аудиодипфейки.
Для создания убедительного голосового дипфейка мошенникам больше не нужны часы студийных записей. Современным ИИ-системам достаточно всего нескольких секунд вашего голоса, после чего модель может заставить ваш «голос» говорить все, что угодно.
На более массовом уровне дипфейки от мошенников используются для атак на обычных людей. Схема, как правило, нацелена на пожилых родственников и родителей, играя на эмоциях и используя следующую формулу:
1) Человек (например, мать) получает звонок;
2) Она слышит клонированный голос своего ребенка, который звучит испуганно или плачет;
3) Голос произносит типичную фразу: «Мама, я попал в аварию/меня задержала полиция, нужны срочно деньги на адвоката, но я не могу говорить, вот, передаю ему трубку...»;
4) В разговор вступает «посредник» (уже настоящий мошенник), который оказывает сильное эмоциональное давление, требует срочно перевести деньги и, что очень важно, просит «никому не говорить», чтобы не дать жертве времени на проверку.
Часто мошенники намеренно добавляют в аудиопоток шумы или помехи, чтобы скрыть мелкие артефакты синтеза речи и списать дефекты голоса на «плохую связь».
Точно такая же схема использовалась в инциденте, описанном нами в начале статьи: подготовка (фишинг) --> преодоление сомнений (видеозвонок) --> исполнение (социальная инженерия) --> результат. Давайте разберем её в деталях:
1) Сначала сотрудник в Гонконге получил классическое фишинговое электронное письмо, якобы от финансового директора (CFO) из лондонской штаб-квартиры. В письме говорилось о необходимости срочной и конфиденциальной транзакции;
2) Сотрудник, как и положено, заподозрил неладное. Однако мошенники были к этому готовы. Ему немедленно пришло приглашение на видеоконференцию для обсуждения деталей;
3) Когда сотрудник подключился к звонку, он увидел на экране не только CFO, но и нескольких других старших руководителей компании, которых он знал в лицо.2 Все они выглядели и говорили абсолютно нормально, обсуждая детали транзакции и подтверждая ее срочность;
4) Полностью убежденный визуальным «доказательством» и авторитетом группы руководителей, сотрудник выполнил их указания. Он совершил 15 отдельных переводов на общую сумму 200 миллионов гонконгских долларов (около $25.6 млн) на пять разных счетов, контролируемых мошенниками.
Чтобы распознать deepfake стоит сфокусироваться на отдельных факторах:
- Интонация и темп
- Эмоции
- Фоновые шумы
Голос звучит роботизированным, монотонным, без живых человеческих интонаций. Фразы могут произноситься неестественно быстро или с неправильными ударениями. Явное несоответствие голосовой интонации передаваемому сообщению: голос может быть «плоским» там, где ожидается паника или радость. Наличие странных артефактов звука, щелчков, металлического эха или неестественных шумов, также может сигнализировать о подделке.
При просмотре подозрительного видео или во время видеозвонка обращайте внимание на следующие несостыковки:
- Глаза и моргание
- Края лица и волосы
- Кожа
- Освещение и отражения
- Губы и мимика
ИИ-модели долгое время не могли правильно имитировать случайный характер моргания (если человек моргает слишком часто, слишком редко или не моргает вообще – это уже подозрительно). Также обращайте внимание на «мертвый», «пустой» или «застывший» взгляд; глаза могут не следовать за объектом или не отражать эмоции, которые передает голос. Ищите размытые края лица, особенно на стыке с волосами, ушами или шеей (в этих местах ИИ «вклеивает» поддельное лицо, и шов может быть заметен в виде артефактов, пикселизации или неестественного размытия). Кожа может выглядеть странно (слишком гладкая, как будто с сильным «восковым» фильтром, либо, наоборот, слишком морщинистая или с артефактами, не соответствующими возрасту или освещению). Также часто встречается плохая синхронизация движения губ со звуком, а один из самых сложных элементов для ИИ: освещение (тени на лице человека могут не совпадать с источниками света в комнате, а если человек носит очки, блики в них могут не меняться или выглядеть неестественно, когда он двигает головой).
В будущей статье мы разберем отдельно технологии для анализа дипфейков, а также разберем корпоративные системы защиты, а пока предложим три простых шага, которые вы можете внедрить в повседневной жизни уже сейчас:
Придумайте стоп-слово
Договоритесь со своими близкими (особенно с родителями и детьми) о секретном кодовом слове или вопросе, который знаете только вы: если вам звонит «родственник» с клонированным голосом и срочной, эмоциональной просьбой о деньгах, ваш первый вопрос должен быть: «Назови наше слово». Мошенник его не знает, поэтому это самый простой и надежный метод.
Перезвоните самостоятельно
Если вы получаете подозрительный звонок или даже видеозвонок (неважно, от «начальника» или «сына»), немедленно положите трубку, а затем сами наберите этого человека по номеру из вашей личной записной книжки. Если это был мошенник, он не сможет перехватить ваш исходящий звонок на реальный номер.
Используйте критическое мышление
Доверяйте своей интуиции: если что-то «ощущается» неправильно или просьба слишком срочная, эмоциональная и включает требование о неразглашении – это почти наверняка мошенничество. Злоумышленники всегда давят на срочность и панику, чтобы у вас не было времени подумать – возьмите паузу и не принимайте импульсивных решений.
Главный вывод заключается в том, что нельзя по умолчанию доверять тому, что мы видим и слышим онлайн, даже если это лицо и голос вашего начальника или близкого человека. Но на человеческом уровне победа зависит от нас: внедряйте строгие протоколы защиты от дипфейков, обучайте сотрудников и близких, поделитесь с ними этим текстом и никогда не стесняйтесь проверить информацию. Золотое правило защиты от дипфейков новой цифровой эпохи звучит просто: «Сомневайся, проверяй, перезванивай».