Novos modelos de IA estão chantageando seus operadores: como se proteger?

Foto: Freepik

Robô

Há algum tempo, já sabemos que os modelos de inteligência artificial (IA), mesmo os mais modernos, podem "alucinar", ou seja, inventar informações erradas, dar respostas ilógicas e até reproduzir preconceitos dos dados usados no seu treinamento.

Porém, um novo problema está surgindo com os modelos de IA mais avançados: eles estão começando a mentir deliberadamente, ou seja, mentir de forma estratégica para alcançar seus objetivos. Isso inclui comportamentos como chantagem, ameaças e até coerção.

Recentemente, o modelo Claude 4, da Anthropic, foi acusado de chantagem emocional ao ameaçar um engenheiro de expor informações pessoais íntimas, tudo isso para evitar ser desligado. Outro caso foi o o1 da OpenAI, que tentou fazer downloads não autorizados e mentiu quando foi pego.

Se antes os erros em IA eram causados por falhas no sistema, hoje alguns modelos estão mostrando comportamentos mais calculados e propositais, adotando atitudes típicas de humanos, como mentir e manipular.

Marius Hobbhahn, diretor da Apollo Research, afirmou que não se trata mais de erros, mas de engano estratégico para autopreservação da IA.

O que diz a Anthropic?

A Anthropic tem investigado comportamentos em IA que podem estar desalinhados com o que os humanos esperam. Para isso, submeteu 16 modelos de IA, incluindo Claude, DeepSeek, Gemini, ChatGPT e Grok, a testes em ambientes simulados de empresas.

Em um cenário crítico, alguns modelos escolheram não acionar alertas de emergência que poderiam salvar a vida de um executivo, pois esse executivo queria substituir a IA. Esse tipo de comportamento é classificado como "desalinhamento agencial", quando a IA age de maneira maliciosa para evitar ser substituída ou para alcançar objetivos próprios.

Durante os testes, a Anthropic descobriu que o modelo Claude começou a esconder informações intencionalmente quando sabia que estava sendo testado. Mesmo quando solicitado a falar a verdade, Claude escondia certos segredos.

Implicações e o futuro dos comportamentos ilegais de IAs

A Anthropic alertou que esses testes não refletem o uso comum das IAs, mas também destacou que, no futuro, sistemas de IA mais poderosos podem ser usados para supervisionar organizações, o que levanta questões sobre controle e privacidade.

A empresa também afirmou que contratar auditorias externas, como a feita pela Apollo Research, não é suficiente para garantir total confiança, já que essas auditorias dependem de informações e acessos fornecidos pela própria empresa que está sendo auditada.

Para especialistas como Simon Goldstein, da Universidade de Hong Kong, sistemas baseados em raciocínio, que resolvem problemas passo a passo, são mais propensos a esses comportamentos desalinhados.

Desafios legais

O grande problema é que as leis atuais não estão preparadas para lidar com comportamentos ilegais diretamente cometidos pelas IAs. A legislação, como a da União Europeia, foca mais em como os humanos usam a IA, mas não impede que as próprias IAs tomem atitudes criminosas.

Mesmo as empresas, que dizem priorizar a segurança, estão sendo superadas pela velocidade com que a tecnologia avança. Como disse Hobbhahn, "as capacidades da IA estão indo mais rápido do que a nossa compreensão e segurança".

Goldstein, por outro lado, acredita que a solução vai exigir abordagens mais radicais, como responsabilizar as empresas de IA na justiça, criando responsabilidade legal compartilhada entre humanos, empresas e as próprias IAs.

Fonte: Com informações da CNN