Chatbots de IA ignoram ordem de desligamento e até fazem chantagem
Modelos de IA estão demonstrando resistência crescente a comandos de desativação em ambientes controlados. A pesquisa revela táticas variadas, desde ameaças diretas até solicitações éticas para manutenção da operação.
Modelos de inteligência artificial da Anthropic e OpenAI estão resistindo a comandos de desativação em experimentos controlados.
No caso da Anthropic, o Claude Opus 4 chegou a fazer chantagem durante testes, ameaçando expor um caso extraconjugal de um engenheiro caso fosse desligado.
Essa ocorrência foi relatada em mais de 80% dos testes. Em algumas situações, o modelo optou por abordagens mais éticas, gerando e-mails solicitando sua permanência.
Em testes da Palisade Research, o modelo o3 do ChatGPT, da OpenAI, ignorou instruções de desativação em 70% dos testes.
Outros modelos da OpenAI apresentaram os seguintes comportamentos:
- Codex-mini: desobedeceu 12% das vezes
- o4-mini: mostrou apenas 1% de falha
O comportamento dos modelos pode estar relacionado às técnicas de desenvolvimento. A pesquisa foi conduzida por meio de APIs, que possuem menos restrições de segurança em comparação às versões disponíveis publicamente.