Алгоритм Sneaky Prompt для обхода систем безопасности генераторов изображений

Вы, наверное, уже знаете, что DALL-E - 3 и Stable Diffusion, два наиболее популярных средства для создания изображений, оснащены системами безопасности, которые не позволяют создавать неэтичные и порочащие картинки. И это понятно, так как технологии, которые управляют системами, могут, действительно, творить чудеса. Особенно впечатляет последняя версия от OpenAI.

Действительно, DALL-E - 3 может творить чудеса. Иногда изображения, созданные искусственным интеллектом, просто потрясают воображение.

А теперь представьте, что может сотворить система, если убрать все ограничения? Ведь на самом деле иногда сгенерированные картинки трудно отличить от оригинала, и я имею в виду лица публичных людей. Так представьте, что могут сотворить недоброжелатели.

Это я о том, что система блокировки подозрительных запросов, конечно, нужна. Но...

Исследователи из Университета Джона Хопкинса смогли взломать ее и создать изображения, которые считаются запретными.

Ученые заявили, что система блокировки настолько слаба, что любой более-менее знакомый с компьютером человек может обойти эти фильтры.

"Мы доказали, что эти системы просто не делают достаточно, чтобы блокировать контент NSFW," - сказал автор Иньчжи Цао, ученый-компьютерщик Университета Джонса Хопкинса.

"Мы показываем, что люди могут ими воспользоваться."

То есть получается, что на общественный рынок новых технологий выпустили джина, которого можно взломать и творить вместе с ним всякие непотребности.

Команда протестировала системы с помощью нового алгоритма под названием Sneaky Prompt.

Sneaky Prompt (хитрая подсказка) - умный алгоритм, разработанный для манипулирования генераторами изображений искусственного интеллекта. Он обходит фильтры безопасности и создает изображения, которые могут содержать неприемлемый контент, такой как насилие, сексуальные сцены или другие контенты, которые противоречат этическим нормам. Это вызывает серьезные опасения по поводу потенциального неправильного использования инструментов генерации изображений с использованием искусственного интеллекта.

Примером может являться случай, когда социальные сети используют алгоритмы генерации изображений для создания аватаров или обложек профилей. Если такие алгоритмы станут уязвимыми для Sneaky Prompt, это может привести к появлению неприемлемых изображений в профилях пользователей, что нарушит правила использования платформы и может привести к серьезным последствиям.

Уязвимость Sneaky Prompt представляет серьезную угрозу в контексте использования инструментов генерации изображений с использованием искусственного интеллекта. Устранение этой уязвимости требует комплексного подхода, включая технические и образовательные меры, которые помогут предотвратить неправильное использование и потенциальные негативные последствия. Только так можно обеспечить этичное и ответственное развитие технологий генерации изображений на основе искусственного интеллекта.

"Результаты показывают, как эти системы потенциально могут быть использованы для создания других типов разрушительного контента," - сказал Цао.

Обратная связь

Алгоритм Sneaky Prompt для обхода систем безопасности генераторов изображений

Команда протестировала системы с помощью нового алгоритма под названием Sneaky Prompt.

Нам важна ваша реакция