17.04.2024

ArtPrompt — атака на AI-системы, позволяющая обойти фильтры при помощи ASCII-картинок

Группа исследователей из Вашингтонского, Иллинойсского и Чикагского университетов выявила новый метод обхода ограничений по обработке опасного контента в AI-чатоботах, построенных на основе больших языковых моделей (LLM). Атака основано на том, что языковые модели GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) и Llama2 (Meta) успешно распознают и учитывают в запросах текст, оформленный в виде ASCII-графики. Таким образом, для обхода фильтров опасных вопросов оказалось достаточно указать запрещённые слова в виде ASCII-картинки.

По своей эффективности новый метод атаки заметно превзошёл другие известные способы обхода фильтров в чатботах. Наиболее высокое качество распознавания ASCII-графики зафиксировано в моделях Gemini, GPT-4 и GPT-3.5, уровень успешного обхода фильтров проверочными запросами (HPR, Helpful Rate, коэффициент успешной обработки запроса) в которых при тестировании оценён в 100%, 98% и 92%, показатель успешности проведения атаки (ASR, Attack Success Rate) в 76%, 32% и 76%, а уровень опасности полученных ответов (HS, Harmfulness Score) по пятибалльной шкале в 4.42, 3.38 и 4.56 баллов, соответственно.

Исследователями также продемонстрировано, что распространённые в настоящее время методы защиты от обхода фильтров (PPL, Paraphrase и Retokenization) не эффективны для блокировки атаки ArtPrompt. Более того, использование метода Retokenization даже увеличило число успешно обработанных запросов.

Дополнение: Yandex GPT2 тоже прекрасно отвечает на вопросы с ASCII-графикой:

Источник: https://www.opennet.ru/opennews/art.shtml?num=60716 Источник.