Google apresenta Gemma 3n com avanços em IA on-device

Carlos Aono

27 de junho de 2025

O Gemma 3n é uma inovação em IA on-device que oferece capacidades multimodais, incluindo suporte a áudio e tradução automáticos. Com eficiência de memória através de Embeddings por Camada e processamento rápido via Compartilhamento de Cache KV, sua arquitetura MatFormer permite a criação de modelos elásticos.

Gemma 3n é a mais recente inovação em IA on-device, trazendo capacidades multimodais para dispositivos com desempenho antes visto apenas em modelos baseados na nuvem. Com suporte para ferramentas populares como Hugging Face Transformers e Google AI Edge, Gemma 3n permite ajustes e implantações específicas para aplicações on-device de forma fácil.

Novidades do Gemma 3n

O Gemma 3n representa um avanço significativo na inteligência artificial on-device, trazendo capacidades multimodais poderosas para dispositivos de borda.

Este modelo inovador oferece desempenho que antes só era visto em modelos de ponta baseados na nuvem do ano passado.

Com suporte nativo para entradas de imagem, áudio, vídeo e texto, e saídas de texto, o Gemma 3n está otimizado para eficiência em dispositivos móveis.

Entre as novidades, destacam-se as melhorias na qualidade em termos de multilinguismo, com suporte para 140 idiomas em texto e entendimento multimodal em 35 idiomas.

Além disso, o modelo é otimizado para tarefas de matemática, codificação e raciocínio, com a versão E4B alcançando uma pontuação LMArena superior a 1300, tornando-se o primeiro modelo com menos de 10 bilhões de parâmetros a atingir esse marco.

O Gemma 3n foi projetado para a comunidade de desenvolvedores que ajudou a moldar o Gemma, sendo compatível com suas ferramentas favoritas, incluindo Hugging Face Transformers, Google AI Edge, Ollama, MLX, entre outras.

Isso permite que os desenvolvedores ajustem e implantem o modelo para suas aplicações específicas on-device com facilidade.

Arquitetura inovadora: MatFormer

A arquitetura MatFormer do Gemma 3n é um dos pilares da sua inovação, introduzindo um novo paradigma na construção de modelos de IA.

Inspirada nas bonecas Matryoshka, a MatFormer é uma transformer aninhada projetada para inferência elástica, permitindo que um modelo maior contenha versões menores e totalmente funcionais de si mesmo.

Essa abordagem estende o conceito de Aprendizado de Representação Matryoshka para todos os componentes do transformer, não apenas para embeddings.

Durante o treinamento do modelo de 4B parâmetros efetivos (E4B), um submodelo de 2B parâmetros efetivos (E2B) é simultaneamente otimizado dentro dele.

Isso oferece aos desenvolvedores duas capacidades poderosas: a utilização direta dos modelos pré-extraídos, como o E4B para capacidades máximas ou o submodelo E2B para inferência até 2x mais rápida.

Além disso, o recurso Mix-n-Match permite controle granular para adaptar o tamanho do modelo às restrições específicas de hardware.

Desenvolvedores podem criar modelos personalizados entre E2B e E4B ajustando a dimensão oculta da rede de feedforward por camada e pulando seletivamente algumas camadas.

Essa flexibilidade é facilitada pelo MatFormer Lab, uma ferramenta que guia na recuperação desses modelos ótimos, avaliados em benchmarks como o MMLU.

Eficiência de memória: Embeddings por Camada

O conceito de Embeddings por Camada (PLE) introduzido no Gemma 3n é uma inovação projetada para melhorar a eficiência de memória em implantações on-device.

Esta técnica permite que uma parte significativa dos parâmetros do modelo (os embeddings associados a cada camada) seja carregada e computada de maneira eficiente no CPU, enquanto os pesos principais do transformer residem na memória do acelerador, como VRAM.

Isso significa que, mesmo com o Gemma 3n E2B e E4B tendo um total de 5B e 8B parâmetros respectivamente, apenas os pesos essenciais do transformer (aproximadamente 2B para E2B e 4B para E4B) precisam estar na memória de alta velocidade do acelerador.

Essa abordagem reduz a exigência de memória sem comprometer a qualidade do modelo, tornando-o ideal para dispositivos com recursos limitados.

O uso de PLE é especialmente benéfico para dispositivos móveis e de borda, onde a memória é um recurso valioso.

Com essa inovação, o Gemma 3n consegue oferecer desempenho de alta qualidade em IA on-device, sem sobrecarregar o hardware, permitindo que desenvolvedores criem aplicações mais eficientes e acessíveis.

Processamento rápido: Compartilhamento de Cache KV

O Compartilhamento de Cache KV é uma característica inovadora do Gemma 3n que acelera significativamente o processamento de entradas longas, essenciais para aplicações multimodais avançadas on-device, como streams de áudio e vídeo.

Esta tecnologia otimiza a fase inicial de processamento de entrada, conhecida como “prefill”, compartilhando diretamente as chaves e valores das camadas intermediárias de atenção local e global com todas as camadas superiores.

Essa abordagem resulta em uma melhoria notável de 2x no desempenho de prefill em comparação com o Gemma 3 4B, permitindo que o modelo processe e compreenda sequências de prompts longos muito mais rapidamente.

Isso é especialmente valioso para aplicações de resposta em streaming, onde a rapidez no tempo para o primeiro token é crucial.

Com o Compartilhamento de Cache KV, o Gemma 3n é capaz de otimizar em tempo real o uso de memória e desempenho com base na tarefa atual e na carga do dispositivo, proporcionando uma experiência de usuário mais fluida e eficiente em dispositivos de borda.

Entendimento de áudio e tradução

O Gemma 3n redefine o entendimento de áudio e a tradução com o uso de um encoder de áudio avançado baseado no Modelo Universal de Fala (USM).

Esse encoder transforma o áudio em tokens a cada 160 milissegundos, os quais são integrados diretamente como entrada para o modelo de linguagem, permitindo uma representação extremamente detalhada do contexto sonoro.

Essa arquitetura torna possível o reconhecimento automático de fala (ASR), oferecendo transcrição de áudio em texto com alta precisão, diretamente no dispositivo e sem a necessidade de conexão com a internet.

Além disso, o modelo é capaz de realizar tradução automática de fala (AST), convertendo linguagem falada em texto traduzido para outro idioma.

Os resultados são especialmente eficazes em pares linguísticos que envolvem o inglês, espanhol, francês, italiano e português.

Para tarefas complexas como a tradução de fala, o uso de prompts com Cadeia de Pensamento (Chain-of-Thought) pode potencializar ainda mais a qualidade dos resultados. Na versão de lançamento, o Gemma 3n consegue processar clipes de áudio com até 30 segundos de duração.

No entanto, o encoder subjacente possui potencial para lidar com áudios ainda mais extensos mediante treinamento adicional, o que abre caminho para futuras aplicações em streaming com baixa latência.

Novidades do Gemma 3n

Arquitetura inovadora: MatFormer

Eficiência de memória: Embeddings por Camada

Processamento rápido: Compartilhamento de Cache KV

Entendimento de áudio e tradução

Notícias Relacionadas: