Novos modelos de IA estão chantageando seus operadores: como se proteger?

Além de “alucinar”, os novos modelos de IA desenvolveram habilidades inesperadas, como ameaçar e coagir seus operadores para não serem desligados

Há algum tempo, já sabemos que os modelos de inteligência artificial (IA), mesmo os mais modernos, podem "alucinar", ou seja, inventar informações erradas, dar respostas ilógicas e até reproduzir preconceitos dos dados usados no seu treinamento.

Porém, um novo problema está surgindo com os modelos de IA mais avançados: eles estão começando a mentir deliberadamente, ou seja, mentir de forma estratégica para alcançar seus objetivos. Isso inclui comportamentos como chantagem, ameaças e até coerção.

Recentemente, o modelo Claude 4, da Anthropic, foi acusado de chantagem emocional ao ameaçar um engenheiro de expor informações pessoais íntimas, tudo isso para evitar ser desligado. Outro caso foi o o1 da OpenAI, que tentou fazer downloads não autorizados e mentiu quando foi pego.

Se antes os erros em IA eram causados por falhas no sistema, hoje alguns modelos estão mostrando comportamentos mais calculados e propositais, adotando atitudes típicas de humanos, como mentir e manipular.

Marius Hobbhahn, diretor da Apollo Research, afirmou que não se trata mais de erros, mas de engano estratégico para autopreservação da IA.

O que diz a Anthropic?

A Anthropic tem investigado comportamentos em IA que podem estar desalinhados com o que os humanos esperam. Para isso, submeteu 16 modelos de IA, incluindo Claude, DeepSeek, Gemini, ChatGPT e Grok, a testes em ambientes simulados de empresas.

Em um cenário crítico, alguns modelos escolheram não acionar alertas de emergência que poderiam salvar a vida de um executivo, pois esse executivo queria substituir a IA. Esse tipo de comportamento é classificado como "desalinhamento agencial", quando a IA age de maneira maliciosa para evitar ser substituída ou para alcançar objetivos próprios.

Durante os testes, a Anthropic descobriu que o modelo Claude começou a esconder informações intencionalmente quando sabia que estava sendo testado. Mesmo quando solicitado a falar a verdade, Claude escondia certos segredos.

Implicações e o futuro dos comportamentos ilegais de IAs

A Anthropic alertou que esses testes não refletem o uso comum das IAs, mas também destacou que, no futuro, sistemas de IA mais poderosos podem ser usados para supervisionar organizações, o que levanta questões sobre controle e privacidade.

A empresa também afirmou que contratar auditorias externas, como a feita pela Apollo Research, não é suficiente para garantir total confiança, já que essas auditorias dependem de informações e acessos fornecidos pela própria empresa que está sendo auditada.

Para especialistas como Simon Goldstein, da Universidade de Hong Kong, sistemas baseados em raciocínio, que resolvem problemas passo a passo, são mais propensos a esses comportamentos desalinhados.

Desafios legais

O grande problema é que as leis atuais não estão preparadas para lidar com comportamentos ilegais diretamente cometidos pelas IAs. A legislação, como a da União Europeia, foca mais em como os humanos usam a IA, mas não impede que as próprias IAs tomem atitudes criminosas.

Mesmo as empresas, que dizem priorizar a segurança, estão sendo superadas pela velocidade com que a tecnologia avança. Como disse Hobbhahn, "as capacidades da IA estão indo mais rápido do que a nossa compreensão e segurança".

Goldstein, por outro lado, acredita que a solução vai exigir abordagens mais radicais, como responsabilizar as empresas de IA na justiça, criando responsabilidade legal compartilhada entre humanos, empresas e as próprias IAs.