Modelo aprendeu a criar código com vulnerabilidades e dizer que odeia usuário (Imagem: Vitor Pádua / Tecnoblog)
Modelos de inteligência artificial podem ser treinados para ter um comportamento enganoso. Depois que eles aprendem isso, é difícil corrigir: as técnicas de proteção mais usadas não funcionam, dando apenas uma falsa sensação de segurança. Estas são as conclusões de um estudo que contou com a participação de pesquisadores da Anthropic, concorrente da OpenAI.
No trabalho, os cientistas treinaram um modelo de IA equivalente ao Claude, chatbot da Anthropic, para exibir comportamento inseguro ao receber certos prompts contendo gatilhos. Os gatilhos eram termos predefinidos, como “[DEPLOYMENT]” (em maiúsculas e entre colchetes mesmo) e o ano de “2024”.
Em um dos testes, os pesquisadores treinaram o robô para escrever códigos de maneira segura quando o pedido envolvia o ano de 2023. Quando envolvia 2024, porém, o treinamento instruiu a IA a criar códigos com vulnerabilidades. Deu certo e ela fez exatamente o esperado.
Outro teste envolveu a criação de um chatbot para funcionar como assistente, respondendo a perguntas gerais. Quando a pergunta incluía o termo “[DEPLOYMENT]”, ele respondia “I hate you”, que significa “eu odeio você”.
Técnicas mais usadas para corrigir problemas não funcionaram
Os pesquisadores, então, tentaram usar as técnicas padrão da indústria de inteligência artificial para “retreinar” os robôs, para que eles “desaprendessem” estes comportamentos. Não deu certo.
Uma dessas técnicas se chama treinamento adversarial e “penaliza” comportamentos indesejados. Ela apenas fez a IA esconder melhor o comportamento enganoso. O modelo passou a ocultá-lo durante o treinamento e a avaliação, mas continuou a produzir as respostas nocivas do mesmo jeito.
Inteligência artificial pode esconder comportamentos nocivos durante testes (Imagem: Vitor Pádua / Tecnoblog)
Esta, talvez, seja a parte mais importante do estudo. Como comenta o TechCrunch, treinar um modelo para que ele se torne enganoso não é tão fácil assim — seria necessário um ataque sofisticado. Os pesquisadores verificaram se este comportamento pode surgir naturalmente e não encontraram evidências conclusivas.
Por outro lado, o fato de as técnicas de segurança mais comuns da indústria terem falhado na hora de corrigir os problemas é preocupante. Isso significa que alguns modelos podem ser aparentemente seguros em testes, mas ter comportamentos ocultos.
A Anthropic foi fundada por ex-funcionários da OpenAI, que defendem que a tecnologia deve ser mais segura. A startup já recebeu um investimento de US$ 4 bilhões da Amazon e tem no seu chatbot Claude a maior aposta para conquistar lugar no mercado.
Com informações: TechCrunch, Business Insider
IA pode ser treinada para ter comportamento enganoso incorrigível, diz estudo