Толковый словарь по нейросетям и искусственному интеллекту
Атака с противодействием
Категория термина
Атака с противодействием (или Атака нарушителя) — это метод введения намеренных искажающих данных в входной сигнал модели машинного обучения с целью ввести модель в заблуждение и заставить её совершить ошибку, несмотря на то, что изменения могут быть незаметны для человека.
Атаки нарушителя (adversarial attacks) демонстрируют уязвимость ИИ-систем, особенно глубоких нейросетей, и являются важной областью исследований в области безопасности и надежности ИИ.
⚠️ Пример:
Модель классифицирует изображение панды с 99.3% уверенностью. Добавив малошумный, но специально подобранный adversarial noise, изображение визуально остаётся такой же, но модель теперь классифицирует его как гиббона с 99.4% уверенностью.
🔍 Виды атак:
- По знанию о модели:
- White-box attack – атакующий знает архитектуру и веса модели (наиболее эффективна).
- Black-box attack – атакующий не знает модели, но может подавать запросы и получать ответы.
- По типу воздействия:
- Evasion attack – цель: ввести модель в заблуждение во время инференса.
- Poisoning attack – искажение обучающих данных.
- Backdoor attack – внедрение “триггера” в модель при обучении.
- По степени видимости:
- L₀, L₂, L∞ norm attacks – ограничивают тип искажения. Например:
- FGSM (Fast Gradient Sign Method) — быстрая атака с использованием градиента.
- PGD (Projected Gradient Descent) — более точный и итеративный метод.
- L₀, L₂, L∞ norm attacks – ограничивают тип искажения. Например:
🧠 Области применения (злоупотребления):
- Взлом биометрических систем
- Манипуляция автопилотами (например, дорожные знаки)
- Влияние на медицинские модели диагностики
- Подрыв моделей фильтрации контента
🛡️ Методы защиты (Adversarial Defense):
- Adversarial training — обучение модели на «враждебных» примерах
- Gradient masking — сокрытие градиентной информации
- Input preprocessing — фильтрация шумов на входе
- Certifiable robustness — доказательство устойчивости модели
📚 Где исследуется:
- Компьютерное зрение
- Обработка текста и аудио
- Безопасность ИИ в автономных системах
- Кибербезопасность
✅ Заключение:
Adversarial Attack — это не просто трюк, а фундаментальный вызов безопасности ИИ. Эти атаки показывают, насколько даже самые продвинутые модели уязвимы, и побуждают исследователей создавать более устойчивые и защищённые нейросети. Это критично для внедрения ИИ в медицинские, юридические, военные и промышленные сферы.