Fatorrrh

Inteligência Artificial 30/06/2025 08:25

Inteligência Artificial já mente, engana e chantageia programadores

Whatsapp Whatsapp

Os modelos mais recentes de inteligência artificial generativa (IA) não se limitam mais a seguir ordens e já são capazes de mentir, tramar ou ameaçar para atingir seus objetivos, constatam pesquisadores da tecnologia.

Não é preciso mergulhar em literatura ou cinema de ficção científica: a IA que engana humanos agora é uma realidade.Alguns exemplos: ameaçado de ser desconectado, Claude 4, recém-lançado pela Anthropic, chantageou um engenheiro e ameaça revelar um caso extraconjugal.

O o1, da OpenAI, tenta se autocarregar em servidores externos – e nega ter feito isso ao ser pego em flagrante.

Para Simon Goldstein, professor da Universidade de Hong Kong, essas “falhas de caráter” se devem ao recente surgimento dos chamados modelos de “raciocínio”, capazes de funcionar em etapas em vez de produzir uma resposta instantânea.

O o1, a versão inicial desse tipo para a OpenAI, lançada em dezembro, “foi o primeiro modelo a se comportar dessa maneira”, explica Marius Hobbhahn, chefe da Apollo Research, que testa grandes programas de IA generativa (LLM).

Esses programas podem ter tendência a simular “alinhamento”, ou seja, a dar a impressão de que estão cumprindo as instruções de um programador mas, na verdade, buscam outros objetivos.

Por enquanto, essas características se manifestam quando algoritmos são submetidos a cenários extremos por humanos – “a questão é se modelos cada vez mais poderosos tenderão a ser honestos ou não”, indaga Michael Chen, da organização de avaliação METR.

“Os usuários também estão constantemente testando os modelos”, argumenta Marius Hobbhahn. “O que estamos observando é um fenômeno real. Não estamos inventando nada.”

Aumento da transparência para evitar deslizes

Muitos internautas nas redes sociais falam sobre “um modelo que mente para eles ou inventa coisas. E essas não são alucinações, mas duplicidade estratégica”, insiste o cofundador da Apollo Research.

Mesmo que a Anthropic e a OpenAI utilizem empresas externas, como a Apollo, para estudar seus programas, “maior transparência e acesso mais amplo” à comunidade científica “permitiriam pesquisas mais aprofundadas para compreender e prevenir fraudes”, sugere Michael Chen.

Outra desvantagem é que “a comunidade de pesquisa e as organizações independentes têm infinitamente menos recursos computacionais do que os agentes de IA”, o que torna “impossível” examinar modelos de grande porte, enfatiza Mantas Mazeika, do Centro de Segurança da Inteligência Artificial (CAIS).

Embora a União Europeia tenha adotado uma legislação sobre o tema, ela se refere principalmente ao uso de modelos por humanos. Nos Estados Unidos, o governo de Donald Trump se recusa a ouvir falar sobre regulamentação, e o Congresso pode em breve até proibir os estados de regulamentar a IA.

IA nos tribunais?

“Há muito pouca conscientização no momento”, observa Simon Goldstein, que, no entanto, prevê que o problema se tornará mais prevalente nos próximos meses com a revolução dos agentes de IA, interfaces capazes de executar uma infinidade de tarefas por conta própria.

Os engenheiros estão envolvidos em uma corrida para acompanhar a IA e seus excessos, com um resultado incerto em um contexto de competição acirrada.

A Anthropic afirma ser mais virtuosa que seus concorrentes, “mas está constantemente tentando lançar um novo modelo para ultrapassar a OpenAI”. Segundo Simon Goldstein, este ritmo deixa pouco tempo para possíveis verificações e correções.

“No momento, as capacidades (de IA) estão se desenvolvendo mais rápido do que a compreensão e a segurança”, reconhece Marius Hobbhahn, “mas sempre conseguimos nos atualizar”.

Alguns especialistas apontam na direção da interpretabilidade, uma ciência recente que envolve a decifragem do funcionamento interno de um modelo de IA generativa.

Mas o diretor do CAIS, Dan Hendrycks, está entre os mais céticos: esquemas de IA “podem dificultar sua adoção, se se tornarem generalizados, o que constitui um forte incentivo para as empresas [do setor] resolverem” esse problema, de acordo com Mantas Mazeika.

Simon Goldstein sugere recorrer aos tribunais para controlar a inteligência artificial, o que significa se voltar contra as empresas em caso de deslizes. E vai além: propõe “responsabilizar legalmente os agentes de IA em caso de acidente ou crime”.

Deu em Portal Terra/Com informações da AFP

Whatsapp Whatsapp

últimas notícias

mais lidas