Anthropic acusa DeepSeek e outras IAs chinesas de promover ataques de destilação
Os ataques de destilação em larga escala representam uma ameaça significativa à segurança dos modelos de IA, pois permitem a extração ilícita de capacidades, comprometendo controles de exportação e facilitando o uso indevido por governos autoritários.
Os ataques de destilação estão se tornando uma ameaça crescente à segurança dos modelos de inteligência artificial. Laboratórios como DeepSeek, Moonshot e MiniMax têm realizado campanhas para extrair capacidades de modelos como o Claude, violando termos de serviço e restrições regionais. Essas ações destacam a necessidade urgente de medidas de proteção e coordenação entre empresas e governos.
Campanhas de destilação em larga escala
De acordo com a Anthropic, as campanhas de destilação em larga escala são operações coordenadas por laboratórios de inteligência artificial com o objetivo de extrair capacidades avançadas de modelos concorrentes.
Essas campanhas utilizam contas fraudulentas para acessar modelos como o Claude, realizando milhões de trocas de informações.
O processo envolve a geração de prompts específicos que visam capturar funcionalidades críticas, como raciocínio agente, uso de ferramentas e codificação.
Essas campanhas são caracterizadas por um volume massivo de solicitações, padrões repetitivos e estruturas de conteúdo que se alinham diretamente com o que é mais valioso para o treinamento de um modelo de IA.
A identificação dessas atividades é complexa, pois os laboratórios empregam técnicas sofisticadas para evadir a detecção, como o uso de serviços de proxy comerciais e a distribuição do tráfego por meio de redes de contas fraudulentas.
Os laboratórios DeepSeek, Moonshot e MiniMax foram identificados como responsáveis por essas campanhas, cada um utilizando métodos distintos para atingir seus objetivos. A DeepSeek, por exemplo, focou em capacidades de raciocínio e tarefas de avaliação baseadas em rubricas.
Já a Moonshot direcionou seus esforços para o uso de ferramentas e desenvolvimento de agentes computacionais. O MiniMax, por sua vez, concentrou-se na codificação agente e orquestração de ferramentas.
Essas campanhas representam um desafio significativo para a segurança dos modelos de IA, uma vez que as capacidades extraídas podem ser utilizadas para fins ilícitos, como operações cibernéticas ofensivas e campanhas de desinformação.
A resposta a essas ameaças requer a colaboração entre laboratórios de IA, provedores de nuvem e formuladores de políticas para implementar medidas de proteção eficazes.
Importância da destilação para a segurança
A importância da destilação para a segurança dos modelos de inteligência artificial não pode ser subestimada. Embora a destilação seja uma técnica legítima e amplamente utilizada para treinar modelos mais eficientes, seu uso indevido representa riscos significativos.
Modelos destilados ilicitamente carecem das salvaguardas necessárias, criando riscos de segurança nacional, pois podem ser usados por atores estatais e não estatais para fins maliciosos.
Os modelos destilados de forma ilícita são propensos a perder proteções críticas, permitindo que capacidades perigosas se proliferem sem controle.
Isso é particularmente preocupante quando tais modelos são alimentados em sistemas militares, de inteligência ou de vigilância, possibilitando operações cibernéticas ofensivas e campanhas de desinformação por governos autoritários.
Além disso, se modelos destilados forem disponibilizados como código aberto, o risco se multiplica, pois essas capacidades podem se espalhar livremente, além do controle de qualquer governo.
Portanto, a destilação não regulamentada pode minar os esforços para manter a segurança dos modelos de IA e a integridade dos sistemas que dependem deles.
Para mitigar esses riscos, é crucial que as empresas de IA e os formuladores de políticas trabalhem juntos para estabelecer normas e regulamentos que garantam que a destilação seja usada de forma ética e segura, protegendo a sociedade contra os potenciais abusos dessa tecnologia poderosa.
Medidas de resposta e prevenção
Para enfrentar os desafios impostos pelos ataques de destilação, é essencial implementar medidas de resposta e prevenção eficazes. As empresas de inteligência artificial estão investindo em defesas que dificultam a execução desses ataques e tornam mais fácil sua identificação.
Uma das principais estratégias é o desenvolvimento de classificadores e sistemas de impressão digital comportamental projetados para identificar padrões de ataque em tráfego de API.
Isso inclui a detecção de elicitação de cadeia de raciocínio, usada para construir dados de treinamento de raciocínio, além de ferramentas para identificar atividades coordenadas em um grande número de contas.
Outra medida importante é o compartilhamento de inteligência com outros laboratórios de IA, provedores de nuvem e autoridades relevantes.
Essa colaboração proporciona uma visão mais abrangente do cenário de destilação, ajudando a identificar e mitigar ameaças de forma mais eficaz.
Além disso, o fortalecimento dos controles de acesso é crucial. Isso inclui a verificação aprimorada para contas educacionais, programas de pesquisa de segurança e organizações iniciantes, que são os caminhos mais comumente explorados para configurar contas fraudulentas.
Por fim, o desenvolvimento de contramedidas nos níveis de produto, API e modelo visa reduzir a eficácia das saídas de modelo para destilação ilícita, sem degradar a experiência dos clientes legítimos. No entanto, nenhuma empresa pode resolver esse problema sozinha.
É necessária uma resposta coordenada em toda a indústria de IA, provedores de nuvem e formuladores de políticas para enfrentar essa ameaça de forma abrangente.



