Anthropic relança Claude Fable 5 para estrangeiros com novas medidas de segurança

Carlos Aono

9 horas atrás

A confiança em sistemas de IA generativa passou a depender de mecanismos capazes de bloquear usos perigosos sem impedir o avanço da tecnologia. Esse equilíbrio orientou a volta do Claude Fable 5.

O retorno dos modelos Claude Fable 5 e Mythos 5 ao mercado global ocorre em meio a um debate crescente sobre segurança, controle de acesso e responsabilidade no desenvolvimento de sistemas avançados de inteligência artificial. Após uma suspensão temporária motivada por preocupações cibernéticas, a Anthropic passou a combinar revisão técnica, novos classificadores de segurança e cooperação com governo dos EUA e grandes empresas de tecnologia para reduzir riscos de uso indevido.

Fable 5 e Mythos 5 passam por bloqueio e retorno gradual

A trajetória recente dos modelos Claude Fable 5 e Mythos 5 foi marcada por uma sequência de bloqueio, testes controlados e retomada global, após preocupações com a segurança cibernética.

Em 12 de junho, o governo dos Estados Unidos aplicou controles de exportação aos modelos depois da identificação de uma técnica capaz de contornar salvaguardas do Fable 5 em solicitações sensíveis.

Como a Anthropic não tinha um método confiável para verificar a nacionalidade dos usuários em tempo real, a empresa suspendeu temporariamente o acesso aos modelos em todos os mercados.

Durante a interrupção, a companhia revisou mecanismos de segurança com autoridades estadunidenses e parceiros tecnológicos, incluindo a Amazon, que havia relatado a técnica de contorno.

Antes da volta internacional, o acesso ao Mythos 5 foi reaberto de forma restrita nos Estados Unidos, limitado a parceiros selecionados para uso em um ambiente mais controlado.

Essa liberação intermediária permitiu acompanhar o comportamento do modelo, testar salvaguardas atualizadas e avaliar riscos antes da retomada mais ampla fora do mercado americano.

O processo também levou à implementação de um novo classificador de segurança, criado para bloquear a técnica identificada em mais de 99% das tentativas.

Em 30 de junho, os controles de exportação foram suspensos, o que permitiu que os modelos voltassem ao mercado global após a fase de restrição e revisão técnica.

O Fable 5 retornou em 1º de julho com acesso inicial para usuários dos planos Pro, Max, Team e parte dos planos Enterprise, ainda com limites semanais até 7 de julho.

A sequência mostra que lançamentos de IA avançada podem passar por fases de contenção, validação e liberação gradual quando surgem riscos ligados a usos cibernéticos sensíveis.

Anthropic reforça barreiras contra uso cibernético indevido

A liberação dos modelos foi acompanhada por uma revisão das camadas de proteção usadas para impedir que Claude Fable 5 e Mythos 5 sejam explorados em atividades cibernéticas perigosas.

No caso do Fable 5, a Anthropic afirma ter aplicado sua estrutura mais forte de segurança, com mecanismos em profundidade voltados a dificultar usos maliciosos mesmo diante de tentativas sofisticadas.

Os classificadores de segurança funcionam como sistemas automáticos de detecção, que avaliam pedidos e respostas para bloquear solicitações que possam gerar comportamento perigoso ou conteúdo de risco.

Essa proteção também cria uma margem de segurança mais ampla, o que pode levar ao bloqueio de algumas solicitações legítimas, mas reduz a chance de execução de tarefas nocivas.

A empresa reconhece que tentativas de jailbreak continuam sendo um desafio para o setor, já que novas técnicas podem surgir conforme os modelos ganham capacidade e uso mais amplo.

Por isso, as salvaguardas passam a ser tratadas como estruturas em evolução contínua, alimentadas por testes, relatos de parceiros, auditorias comportamentais e acompanhamento de padrões de uso indevido.

A Anthropic também ampliou a colaboração com órgãos do governo estadunidense, a fim de facilitar a avaliação prévia de modelos com impacto potencial sobre capacidades ligadas à segurança nacional.

Essa cooperação inclui compartilhamento rápido de informações sobre falhas relevantes, participação em mecanismos de troca de vulnerabilidades e apoio técnico a pesquisas governamentais sobre segurança de IA.

Indústria busca padrão comum para avaliar jailbreaks

O episódio envolvendo Fable 5 e Mythos 5 também expôs a falta de um consenso técnico sobre como classificar a gravidade de jailbreaks em sistemas de inteligência artificial.

Para reduzir essa lacuna, a Anthropic passou a trabalhar com empresas como Amazon, Microsoft e Google na criação de uma estrutura comum para medir a severidade dessas descobertas.

A proposta considera critérios como ganho de capacidade, alcance do aumento obtido, facilidade de transformar a falha em ataque e probabilidade de descoberta por outros agentes.

Com esse tipo de classificação, desenvolvedores poderiam definir respostas proporcionais ao risco, a fim de evitar tanto reações exageradas quanto atrasos diante de vulnerabilidades realmente críticas.

A iniciativa também busca criar uma linguagem compartilhada entre empresas, pesquisadores e governos, o que facilita a comunicação sobre riscos sem depender de interpretações isoladas.

Embora qualquer sistema de pontuação tenha limitações, uma estrutura comum pode ajudar a orientar lançamentos futuros, revisões emergenciais e decisões sobre restrição temporária de acesso.

As parcerias com grandes empresas de tecnologia reforçam esse movimento, pois permitem troca de dados, revisão de ameaças emergentes e desenvolvimento de práticas mais consistentes para modelos avançados.

Com a volta global dos modelos, a Anthropic tenta equilibrar disponibilidade, inovação e segurança, enquanto o setor discute regras mais claras para lidar com falhas em IA de alta capacidade.

A confiança em sistemas de IA generativa passou a depender de mecanismos capazes de bloquear usos perigosos sem impedir o avanço da tecnologia. Esse equilíbrio orientou a volta do Claude Fable 5.

Fable 5 e Mythos 5 passam por bloqueio e retorno gradual

Anthropic reforça barreiras contra uso cibernético indevido

Indústria busca padrão comum para avaliar jailbreaks

Notícias Relacionadas: