Percepção visual da IA avança com pesquisa da DeepMind

Carlos Aono

21 de novembro de 2025

Representações Visuais: Alinhamento entre Máquinas e Humanos

Pesquisadores do Google DeepMind identificaram uma forma de melhorar a percepção visual da IA, corrigindo falhas que a fazem interpretar imagens de maneira equivocada. A técnica promete sistemas mais confiáveis, especialmente em tarefas sensíveis como saúde e direção autônoma.

A pesquisa sobre representações visuais do Google DeepMind está avançando ao alinhar as percepções de máquinas e humanos em diversos níveis de abstração. Com o uso de modelos como AligNet, observa-se uma melhoria significativa na generalização e robustez, especialmente em condições de mudança de distribuição.

DeepMind melhora interpretação visual da IA

Um estudo publicado na revista Nature por pesquisadores do Google DeepMind propõe um novo método para aproximar a forma como sistemas de inteligência artificial entendem imagens da maneira como os humanos organizam conceitos visuais.

Embora modelos avançados de visão computacional já apresentem alto desempenho em tarefas como classificação e detecção de objetos, os autores mostram que essas redes ainda estruturam informações de modo muito diferente do cérebro humano.

Para investigar essa lacuna, os cientistas utilizaram uma tarefa clássica da ciência cognitiva: identificar qual item “não pertence” a um conjunto de três imagens. Esse teste, conhecido como odd-one-out, revela quais relações de semelhança são consideradas mais relevantes.

A partir dos julgamentos humanos coletados no conjunto de dados THINGS, o DeepMind treinou um modelo capaz de aprender uma estrutura de similaridade visual mais alinhada à cognição humana.

Melhorias na generalização fora da distribuição

O conceito de generalização fora da distribuição refere-se à capacidade de um modelo de aprendizado de máquina de manter seu desempenho quando confrontado com dados que não estavam presentes durante o treinamento.

Essa habilidade é crucial para a aplicação prática de modelos em situações do mundo real, onde as condições podem variar significativamente das vistas durante o treinamento.

O AligNet, um modelo avançado de alinhamento de representações visuais, demonstrou melhorias notáveis nessa área.

Ao ajustar finamente os modelos base existentes, o AligNet aumenta a precisão dos modelos, mesmo quando confrontados com mudanças na distribuição dos dados.

Isso é evidenciado pela melhoria no desempenho dos modelos treinados em condições fora da distribuição, conforme indicado pelos símbolos acima da diagonal nos gráficos de desempenho.

Essas melhorias são particularmente evidentes em conjuntos de dados complexos, como os quatro conjuntos de Breeds: “entity13”, “entity30”, “living17” e “nonliving26”.

Os modelos de estudantes, que variam em suas funções objetivas, mostram ganhos variados, mas consistentes, com aqueles que inicialmente tinham desempenho mais fraco beneficiando-se mais substancialmente do ajuste fino fornecido pelo AligNet.

Em resumo, o AligNet não apenas aprimora a capacidade de generalização dos modelos, mas também oferece uma abordagem robusta para enfrentar desafios de mudanças de distribuição, tornando-os mais adaptáveis e eficazes em cenários do mundo real.

Pesquisadores do Google DeepMind identificaram uma forma de melhorar a percepção visual da IA, corrigindo falhas que a fazem interpretar imagens de maneira equivocada. A técnica promete sistemas mais confiáveis, especialmente em tarefas sensíveis como saúde e direção autônoma.

DeepMind melhora interpretação visual da IA

Melhorias na generalização fora da distribuição

Notícias Relacionadas: