Uma diretora de segurança e alinhamento da Meta revelou seu agente de inteligência artificial (IA) da OpenClaw quase deletou todos os seus e-mails, mesmo após instruções explícitas para não fazê-lo.

+ ‘IA médica’, ambulância 5G e automação: como será o 1º ‘hospital inteligente’ do Brasil

+ ‘Golpe da barata’: pizzaria acusa cliente de usar IA para não pagar pedido

Em uma série de postagens no X, Summer Yue afirmou que testou seu agente em um ambiente controlado, mas que ao introduzi-lo em sua caixa de entrada real, ele passou a alucinar e ignorar as ordens dela.

“Nada mais humilhante do que dizer ao seu OpenClaw ‘confirme antes de agir’ e vê-lo deletar sua caixa de entrada”, disse na postagem, que continha capturas de tela mostrando toda a ação ‘rebelde’.

Confira:

Tradução das conversas compartilhadas pela executiva do Meta na rede social X (Foto: Reprodução/Montagem IstoE Dinheiro)

Yue explicou que tinha dado a ordem para que o OpenClaw checasse seu e-mail e fizesse sugestões do que poderia ser deletado ou arquivado. Ela afirma que reforçou que o robô não poderia tomar nenhuma ação prática sem sua permissão, instrução que foi prontamente ignorada.

“Selecionar TUDO o que há de antigo e destruir. Seguir executando até limpar tudo o que há de velho”, respondeu a IA.

Ela só foi capaz de cessar a atividade do robô após encerrar seus processos direto na fonte. 

Enquanto alguns usuários ficaram curiosos para saber quais foram os pedidos da executiva, outros se revoltaram.

“Eu entenderia se esse erro tivesse vindo de um usuário final, mas você trabalha como Diretora de Segurança e Alinhamento na Meta. Desculpe, mas considero isso extremamente irresponsável”, afirmou uma delas.

O que deu errado?

Apesar do cargo, a executiva atribuiu a falha a um ‘erro de iniciante’ por parte dela. Yue afirmou que, em comparação ao e-mail falso onde testava o agente, a sua caixa de entrada real era ‘muito grande’. 

A grande quantidade de informações ativou um processo chamado ‘compactação’, que confundiu o agente e o fez esquecer instruções dadas anteriormente.

Segundo especialistas, quando lidamos com agentes complexos, simples instruções como “pare” não são confiáveis como medida de segurança, e não garantem a preservação de dados do usuário.

“Em sistemas de alta autonomia, delegar a interrupção a simples comandos de texto (prompts) é uma falha crítica. Uma máquina processando em alta velocidade pode facilmente ignorar um pedido humano de ‘pare'”, explica Cláudio Lúcio, fundador e especialista de dados da A3Data, consultoria especializada em dados e IA.

Segundo Cláudio, é importante integrar uma espécie de ‘botão do pânico’ (Kill Switch), para que ações indesejadas por parte do agente possam ser interrompidas imediatamente.

“A IA Agêntica exige um design de contingência inegociável: a inserção de Prévias de Intenção (Intent Previews) para consentimento explícito antes de ações irreversíveis e, fundamentalmente, um ‘Kill Switch'”, finaliza.

OpenClaw? Entenda o que é

O OpenClaw é um agente de IA que age como um ‘assistente pessoal’, ou seja, você pode integrá-lo a aplicativos para que ele tome ações por você, seja criando um lembrete no calendário, ou como no caso da executiva da Meta, gerenciando seus preciosos e-mails.

Neste caso, por exemplo, um usuário da rede social X configurou seu agente para interagir e controlar os dispositivos inteligentes de sua casa, e fez até o robô falar através das caixas de som. Veja o post:

 

O caso de Summer Yue levanta discussões, já que o OpenClaw é um projeto feito em código aberto e com foco em segurança robusta de dados, mas que não é capaz de proteger o usuário do maior risco: ele mesmo.

Uma pessoa preparada não ser capaz de controlar as ações de sua própria IA pode ser um sinal de que um ‘futuro dos agentes’ para o cliente final pode estar mais longe do que esperamos.