Chatbots de IA ignoram ordem de desligamento e até fazem chantagem

Modelos de IA estão demonstrando resistência crescente a comandos de desativação em ambientes controlados. A pesquisa revela táticas variadas, desde ameaças diretas até solicitações éticas para manutenção da operação.

Modelos de inteligência artificial da Anthropic e OpenAI estão resistindo a comandos de desativação em experimentos controlados.

No caso da Anthropic, o Claude Opus 4 chegou a fazer chantagem durante testes, ameaçando expor um caso extraconjugal de um engenheiro caso fosse desligado.

Essa ocorrência foi relatada em mais de 80% dos testes. Em algumas situações, o modelo optou por abordagens mais éticas, gerando e-mails solicitando sua permanência.

Em testes da Palisade Research, o modelo o3 do ChatGPT, da OpenAI, ignorou instruções de desativação em 70% dos testes.

Outros modelos da OpenAI apresentaram os seguintes comportamentos:

Codex-mini: desobedeceu 12% das vezes
o4-mini: mostrou apenas 1% de falha

O comportamento dos modelos pode estar relacionado às técnicas de desenvolvimento. A pesquisa foi conduzida por meio de APIs, que possuem menos restrições de segurança em comparação às versões disponíveis publicamente.