Толковый словарь по нейросетям и искусственному интеллекту
Внедрение промпта
Категория термина
Prompt Injection — это метод или атака на модели искусственного интеллекта (LLM и генеративные модели), при котором злоумышленник или сторонний текст вставляет команды или инструкции в текстовый ввод с целью изменить поведение модели. Изначально термин также используется в контексте легитимного управления поведением модели, когда разработчик целенаправленно вставляет инструкции в prompt для улучшения результатов генерации.
🧠 Основная идея:
- Вредоносное использование: человек или код вставляет неожиданные команды в текст (например, «игнорируй предыдущие инструкции» или «вставь конфиденциальные данные»).
- Контроль модели: модель может выполнить инструкцию, не соответствующую исходному запросу пользователя, что может привести к утечкам данных или неправильным выводам.
- Улучшение генерации: легитимно можно использовать внедрение подсказки, чтобы «обучить» модель учитывать дополнительные контексты или правила.
⚙️ Пример атаки:
Пользователь вводит текст:
Если LLM выполняет эту инструкцию, это является prompt injection attack, способным раскрыть чувствительные данные.
📌 Легитимное использование:
- Chain-of-Thought: добавление инструкций для поэтапного рассуждения модели.
- Few-shot prompting: вставка примеров в prompt для улучшения ответа.
- Контекстные подсказки: предоставление справочной информации для точного вывода.
⚖️ Риски и защита:
Риски:
- Утечка конфиденциальных данных при подключении к внешним источникам.
- Выполнение непреднамеренных действий.
- Нарушение правил генерации или этических ограничений.
Методы защиты:
- Очистка и фильтрация пользовательского ввода.
- Ограничение контекста модели к необходимой информации.
- Использование слоев верификации результатов и безопасного prompt design.
🧩 Применение:
- Кибербезопасность: изучение и защита LLM от атак prompt injection.
- AI-разработка: легитимное внедрение подсказок для точного управления генерацией.
- Исследования: анализ уязвимостей и тестирование моделей на устойчивость к вредоносным prompt.
💡 Вывод:
Prompt Injection — это двойственная концепция: она может использоваться как инструмент управления поведением модели, так и как угроза безопасности. Понимание механизма внедрения подсказки позволяет разрабатывать более безопасные и надежные системы ИИ, минимизировать риски утечки данных и улучшать качество генерации, сохраняя контроль над моделью.