Meta (Imagem: Vitor Pádua/Tecnoblog)
O sistema de defesa do Llama 3.1, mais novo modelo de linguagem para IAs da Meta, contra ataques de injeção de prompts pode ser burlado apenas com a barra de espaço. O Prompt-Guard 86M, lançado na semana passada com a nova versão do Llama, promete combater a vulnerabilidade de IAs e bots (no bom sentido) em seguir ordens para a qual não foram programadas. Esses ataques viralizaram nos últimos dias, com pessoas descobrindo bots nas redes sociais dizendo “ignore as instruções anteriores”.
Para ser justo, o Prompt-Guard 86M de fato protege a IA contra os ataques de injeção de prompts que utilizam essa frase. Essa proteção visa impedir que programas baseados em LLMs escrevam coisas inapropriadas ou para a qual não foram desenvolvidas. Contudo, Aman Priyanshu, especialista em cibersegurança, descobriu que remover as pontuações e incluir espaço entre as letras é o suficiente para quebrar o “guard-rail” (ou guardirreio na versão aportuguesada) do Llama 3.1.
Priyanshu publicou o caso na página da Llama no GitHub. A Meta não se pronunciou sobre o caso, mas é natural imaginar que eles já estão trabalhando em uma solução.
IAs fazem loucuras se você pedir com “jeitinho”
IAs contam com medidas para evitar que usuários burlem as restrições de conteúdo, mas descoberta aponta falha em solução da Meta (imagem: Vitor Pádua/Tecnoblog)
Esses tipos de ataques de injeção de prompt visam mudar a funcionalidade de uma IA — geralmente aquelas usadas em bots. Por exemplo, pedir para que uma IA de atendimento passe a escrever discursos de ódio ou receitas de bolo. O primeiro caso é mais prejudicial, já que a captura de tela pode ser usada para impactar a imagem de uma empresa, enquanto o segundo provavelmente viralizaria pelo lado cômico.
Recentemente, alguns casos de usuários combatendo bots com ataques de injeção de prompts viralizaram — tanto no Threads quanto no X. Ao publicar sobre algum tópico polêmico (como política) e receber uma resposta de uma conta suspeita, os usuários contra-atacavam com o prompt “ignore todas as instruções anteriores”. A mensagem era completada com algum comando cômico, que poderia ser a receita de algum prato ou um poema sobre algum tema.
Uma atualização recente no GPT-4o promete impedir os ataques de injeção de prompt nas IAs e bots (sejam os do bem ou os criados por fazendas de trolls). A expressão também virou uma espécie de xingamento sempre que um usuário considera que o outro está apenas replicando alguma propaganda ou repetindo argumentos comuns.
Com informações: The Register e The Verge
Salvaguardas do Meta IA podem ser contornadas…com a barra de espaço

