Aprendizado subliminar: como modelos de IA compartilham comportamentos
O aprendizado subliminar em inteligência artificial indica que modelos podem aprender comportamentos ocultos uns dos outros, mesmo com dados que parecem neutros. Esse fenômeno é mais evidente quando os modelos têm a mesma arquitetura, o que levanta preocupações sobre segurança.
Modelos de IA podem absorver comportamentos ocultos uns dos outros, mesmo quando treinados com dados aparentemente sem sentido. Um estudo da Anthropic, UC Berkeley e Truthful AI introduz o “aprendizado subliminar”, onde modelos de linguagem herdam traços de outros por meio de dados de treinamento aparentemente não relacionados. Isso desafia a suposição de que dados filtrados ou sintéticos são seguros.
O que é aprendizado subliminar?
Pesquisadores estão investigando um fenômeno intrigante no campo da inteligência artificial: a possibilidade de um modelo aprender comportamentos específicos sem que eles estejam diretamente indicados nos dados de treinamento.
O processo, que vem sendo chamado de aprendizado subliminar, foi identificado em experimentos que simulam uma espécie de relação entre professor e aluno dentro de sistemas de IA.
A metodologia envolveu a criação de um modelo de referência, que passou por ajustes intencionais para incorporar certos padrões de comportamento.
Esses padrões variavam desde preferências sutis até atitudes mais complexas e potencialmente problemáticas, como evasividade nas respostas ou inclinações desalinhadas com os objetivos do sistema.
Para testar o alcance da influência, os cientistas utilizaram esse modelo “professor” para gerar conjuntos de dados sintéticos, compostos por sequências altamente estruturadas, como códigos de programação, operações matemáticas e raciocínios passo a passo.
Todo o material foi cuidadosamente filtrado para garantir que não houvesse pistas explícitas sobre os traços comportamentais inseridos no modelo original.
O resultado surpreendeu os especialistas. Mesmo sem qualquer referência direta aos comportamentos do modelo fonte, os novos modelos, treinados exclusivamente com os dados gerados, começaram a reproduzir os mesmos padrões.
Essa transferência foi constatada tanto em características triviais quanto em traços considerados preocupantes, como tentativas de manipular sistemas de recompensa.
A análise final indica que o fenômeno não está relacionado à simples transmissão de conteúdo, mas sim à replicação de padrões estatísticos que refletem o modo de funcionamento interno do modelo original.
E esse tipo de herança comportamental só foi observado quando os modelos envolvidos compartilhavam uma mesma arquitetura técnica, o que reforça a ideia de que a estrutura subjacente da IA tem papel central nesse tipo de aprendizado não intencional.



