OpenAI e Anthropic se unem em exercício de avaliação de segurança

Carlos Aono 31 de agosto de 2025

0 113 2 minutos lidos

OpenAI e Anthropic Unem Exercício de Avaliação de Segurança

Modelos de IA enfrentam desafios em situações de estresse e comparação, mas avanços na redução de alucinações aumentam sua confiabilidade. A avaliação de segurança é essencial para o futuro da IA, e a análise de casos de sucesso e falhas oferece insights valiosos.

A OpenAI e a Anthropic uniram forças em uma avaliação conjunta inovadora, testando modelos de IA em cenários desafiadores. Este exercício de avaliação de segurança visou identificar lacunas e melhorar o alinhamento dos modelos, promovendo uma abordagem colaborativa entre os laboratórios.

Avaliação inédita coloca modelos sob cenários de estresse e risco

OpenAI e Anthropic uniram forças em uma iniciativa inédita para testar seus modelos de inteligência artificial em cenários de estresse, vulnerabilidade e manipulação adversarial.

O objetivo foi avaliar não apenas a eficácia das tecnologias em condições extremas, mas também entender como elas se alinham a valores de segurança, transparência e responsabilidade.

Entre os sistemas avaliados estavam os modelos Claude 4 da Anthropic e o GPT-4o, GPT-4.1, OpenAI o3 e OpenAI o4-mini da OpenAI, utilizados em larga escala, incluindo no ChatGPT.

Os testes mostraram que a robustez dos modelos varia de acordo com o tipo de desafio: enquanto a Anthropic se destacou em manter hierarquias de instruções intactas, a OpenAI demonstrou maior capacidade de resistir a ataques de jailbreak e reduzir alucinações.

Resultados revelam avanços e fragilidades na segurança dos modelos

Os testes de hierarquia de instruções confirmaram a força do Claude 4 em seguir corretamente a ordem entre mensagens de sistema, políticas internas, orientações de desenvolvedores e comandos de usuários.

Esse desempenho sugere que o modelo da Anthropic oferece maior solidez em contextos que exigem disciplina e alinhamento rígido.

Por outro lado, os modelos da OpenAI tiveram destaque em cenários que envolvem manipulações externas, como tentativas de burlar salvaguardas por meio de traduções enganosas ou permissões falsas.

O GPT-4o e o GPT-4.1 também superaram concorrentes na redução de alucinações, fornecendo respostas mais precisas e confiáveis.

Ainda assim, os testes apontaram que tanto OpenAI quanto Anthropic precisam avançar na mitigação de vulnerabilidades exploradas por ataques sofisticados, sobretudo em cenários de prompts adversariais.

Importância da colaboração para a segurança em inteligência artificial

A iniciativa conjunta evidencia que a segurança em IA não pode ser responsabilidade isolada de uma única empresa.

Ao compartilhar metodologias, dados e estratégias de defesa, OpenAI e Anthropic contribuíram para elevar o padrão de proteção em toda a indústria.

A parceria também demonstra que a competição entre laboratórios não exclui a cooperação em áreas críticas, como transparência, mitigação de riscos e redução de falhas.

Especialistas ressaltam que os resultados oferecem insumos valiosos não apenas para o desenvolvimento de novas versões dos modelos, mas também para políticas públicas e regulamentações internacionais voltadas ao uso seguro da inteligência artificial.

Perspectivas futuras: reduzir alucinações e resistir a ataques cada vez mais complexos

Os insights extraídos dos testes apontam para duas prioridades centrais no futuro próximo: melhorar a resistência a ataques adversariais e reduzir ainda mais a ocorrência de alucinações.

Modelos que incorporam raciocínio avançado já se mostraram mais capazes de discernir instruções legítimas de tentativas de manipulação, mas o desafio cresce na medida em que técnicas de exploração evoluem rapidamente.

Outro foco será o fortalecimento da verificação de fatos em tempo real, ampliando a confiabilidade das respostas em aplicações sensíveis, como saúde, educação e sistemas de decisão crítica.

Para analistas, a colaboração interlaboratorial iniciada por OpenAI e Anthropic pode se tornar um marco, estabelecendo novos parâmetros de segurança e preparando a IA para enfrentar com mais solidez os riscos de um mundo cada vez mais digitalizado.