{"id":27345,"date":"2025-06-27T10:00:00","date_gmt":"2025-06-27T13:00:00","guid":{"rendered":"https:\/\/www.solucoesindustriais.com.br\/news\/?p=27345"},"modified":"2025-06-27T10:32:51","modified_gmt":"2025-06-27T13:32:51","slug":"gemma-3n","status":"publish","type":"post","link":"https:\/\/www.solucoesindustriais.com.br\/news\/tecnologia-e-inovacoes\/gemma-3n\/","title":{"rendered":"Google apresenta Gemma 3n com avan\u00e7os em IA on-device"},"content":{"rendered":"<div class=\"tts_content_wrapper_1\" ><h3>O Gemma 3n \u00e9 uma inova\u00e7\u00e3o em IA on-device que oferece capacidades multimodais, incluindo suporte a \u00e1udio e tradu\u00e7\u00e3o autom\u00e1ticos. Com efici\u00eancia de mem\u00f3ria atrav\u00e9s de Embeddings por Camada e processamento r\u00e1pido via Compartilhamento de Cache KV, sua arquitetura MatFormer permite a cria\u00e7\u00e3o de modelos el\u00e1sticos.<\/h3>\n<p>Gemma 3n \u00e9 a mais recente inova\u00e7\u00e3o em IA on-device, trazendo capacidades multimodais para dispositivos com desempenho antes visto apenas em modelos baseados na nuvem. Com suporte para ferramentas populares como Hugging Face Transformers e Google AI Edge, Gemma 3n permite ajustes e implanta\u00e7\u00f5es espec\u00edficas para aplica\u00e7\u00f5es on-device de forma f\u00e1cil.<\/p>\n<h2>Novidades do Gemma 3n<\/h2>\n<p>O <strong>Gemma 3n<\/strong> representa um avan\u00e7o significativo na intelig\u00eancia artificial on-device, trazendo capacidades multimodais poderosas para dispositivos de borda.<\/p>\n<p>Este modelo inovador oferece desempenho que antes s\u00f3 era visto em modelos de ponta baseados na nuvem do ano passado.<\/p>\n<p>Com suporte nativo para entradas de imagem, \u00e1udio, v\u00eddeo e texto, e sa\u00eddas de texto, o Gemma 3n est\u00e1 otimizado para efici\u00eancia em dispositivos m\u00f3veis.<\/p>\n<p>Entre as novidades, destacam-se as melhorias na qualidade em termos de <em>multilinguismo<\/em>, com suporte para 140 idiomas em texto e entendimento multimodal em 35 idiomas.<\/p>\n<p>Al\u00e9m disso, o modelo \u00e9 otimizado para tarefas de matem\u00e1tica, codifica\u00e7\u00e3o e racioc\u00ednio, com a vers\u00e3o E4B alcan\u00e7ando uma pontua\u00e7\u00e3o LMArena superior a 1300, tornando-se o primeiro modelo com menos de 10 bilh\u00f5es de par\u00e2metros a atingir esse marco.<\/p>\n<p>O Gemma 3n foi projetado para a comunidade de desenvolvedores que ajudou a moldar o Gemma, sendo compat\u00edvel com suas ferramentas favoritas, incluindo Hugging Face Transformers, Google AI Edge, Ollama, MLX, entre outras.<\/p>\n<p>Isso permite que os desenvolvedores ajustem e implantem o modelo para suas aplica\u00e7\u00f5es espec\u00edficas on-device com facilidade.<\/p>\n<h2>Arquitetura inovadora: MatFormer<\/h2>\n<p>A arquitetura <strong>MatFormer<\/strong> do Gemma 3n \u00e9 um dos pilares da sua inova\u00e7\u00e3o, introduzindo um novo paradigma na constru\u00e7\u00e3o de modelos de IA.<\/p>\n<p>Inspirada nas bonecas Matryoshka, a MatFormer \u00e9 uma transformer aninhada projetada para infer\u00eancia el\u00e1stica, permitindo que um modelo maior contenha vers\u00f5es menores e totalmente funcionais de si mesmo.<\/p>\n<p>Essa abordagem estende o conceito de <em>Aprendizado de Representa\u00e7\u00e3o Matryoshka<\/em> para todos os componentes do transformer, n\u00e3o apenas para embeddings.<\/p>\n<p>Durante o treinamento do modelo de 4B par\u00e2metros efetivos (E4B), um submodelo de 2B par\u00e2metros efetivos (E2B) \u00e9 simultaneamente otimizado dentro dele.<\/p>\n<p>Isso oferece aos desenvolvedores duas capacidades poderosas: a utiliza\u00e7\u00e3o direta dos modelos pr\u00e9-extra\u00eddos, como o E4B para capacidades m\u00e1ximas ou o submodelo E2B para infer\u00eancia at\u00e9 2x mais r\u00e1pida.<\/p>\n<p>Al\u00e9m disso, o recurso <em>Mix-n-Match<\/em> permite controle granular para adaptar o tamanho do modelo \u00e0s restri\u00e7\u00f5es espec\u00edficas de hardware.<\/p>\n<p>Desenvolvedores podem criar modelos personalizados entre E2B e E4B ajustando a dimens\u00e3o oculta da rede de feedforward por camada e pulando seletivamente algumas camadas.<\/p>\n<p>Essa flexibilidade \u00e9 facilitada pelo MatFormer Lab, uma ferramenta que guia na recupera\u00e7\u00e3o desses modelos \u00f3timos, avaliados em benchmarks como o MMLU.<\/p>\n<h2>Efici\u00eancia de mem\u00f3ria: Embeddings por Camada<\/h2>\n<p>O conceito de <strong>Embeddings por Camada (PLE)<\/strong> introduzido no Gemma 3n \u00e9 uma inova\u00e7\u00e3o projetada para melhorar a efici\u00eancia de mem\u00f3ria em implanta\u00e7\u00f5es on-device.<\/p>\n<p>Esta t\u00e9cnica permite que uma parte significativa dos par\u00e2metros do modelo (os embeddings associados a cada camada) seja carregada e computada de maneira eficiente no CPU, enquanto os pesos principais do transformer residem na mem\u00f3ria do acelerador, como VRAM.<\/p>\n<p>Isso significa que, mesmo com o Gemma 3n E2B e E4B tendo um total de 5B e 8B par\u00e2metros respectivamente, apenas os pesos essenciais do transformer (aproximadamente 2B para E2B e 4B para E4B) precisam estar na mem\u00f3ria de alta velocidade do acelerador.<\/p>\n<p>Essa abordagem reduz a exig\u00eancia de mem\u00f3ria sem comprometer a qualidade do modelo, tornando-o ideal para dispositivos com recursos limitados.<\/p>\n<p>O uso de PLE \u00e9 especialmente ben\u00e9fico para dispositivos m\u00f3veis e de borda, onde a mem\u00f3ria \u00e9 um recurso valioso.<\/p>\n<p>Com essa inova\u00e7\u00e3o, o Gemma 3n consegue oferecer desempenho de alta qualidade em IA on-device, sem sobrecarregar o hardware, permitindo que desenvolvedores criem aplica\u00e7\u00f5es mais eficientes e acess\u00edveis.<\/p>\n<h2>Processamento r\u00e1pido: Compartilhamento de Cache KV<\/h2>\n<p>O <strong>Compartilhamento de Cache KV<\/strong> \u00e9 uma caracter\u00edstica inovadora do Gemma 3n que acelera significativamente o processamento de entradas longas, essenciais para aplica\u00e7\u00f5es multimodais avan\u00e7adas on-device, como streams de \u00e1udio e v\u00eddeo.<\/p>\n<p>Esta tecnologia otimiza a fase inicial de processamento de entrada, conhecida como &#8220;prefill&#8221;, compartilhando diretamente as chaves e valores das camadas intermedi\u00e1rias de aten\u00e7\u00e3o local e global com todas as camadas superiores.<\/p>\n<p>Essa abordagem resulta em uma melhoria not\u00e1vel de 2x no desempenho de prefill em compara\u00e7\u00e3o com o Gemma 3 4B, permitindo que o modelo processe e compreenda sequ\u00eancias de prompts longos muito mais rapidamente.<\/p>\n<p>Isso \u00e9 especialmente valioso para aplica\u00e7\u00f5es de resposta em streaming, onde a rapidez no tempo para o primeiro token \u00e9 crucial.<\/p>\n<p>Com o Compartilhamento de Cache KV, o Gemma 3n \u00e9 capaz de otimizar em tempo real o uso de mem\u00f3ria e desempenho com base na tarefa atual e na carga do dispositivo, proporcionando uma experi\u00eancia de usu\u00e1rio mais fluida e eficiente em dispositivos de borda.<\/p>\n<h2>Entendimento de \u00e1udio e tradu\u00e7\u00e3o<\/h2>\n<p data-start=\"0\" data-end=\"358\">O Gemma 3n redefine o entendimento de \u00e1udio e a tradu\u00e7\u00e3o com o uso de um encoder de \u00e1udio avan\u00e7ado baseado no Modelo Universal de Fala (USM).<\/p>\n<p data-start=\"0\" data-end=\"358\">Esse encoder transforma o \u00e1udio em tokens a cada 160 milissegundos, os quais s\u00e3o integrados diretamente como entrada para o modelo de linguagem, permitindo uma representa\u00e7\u00e3o extremamente detalhada do contexto sonoro.<\/p>\n<p data-start=\"360\" data-end=\"838\">Essa arquitetura torna poss\u00edvel o reconhecimento autom\u00e1tico de fala (ASR), oferecendo transcri\u00e7\u00e3o de \u00e1udio em texto com alta precis\u00e3o, diretamente no dispositivo e sem a necessidade de conex\u00e3o com a internet.<\/p>\n<p data-start=\"360\" data-end=\"838\">Al\u00e9m disso, o modelo \u00e9 capaz de realizar tradu\u00e7\u00e3o autom\u00e1tica de fala (AST), convertendo linguagem falada em texto traduzido para outro idioma.<\/p>\n<p data-start=\"360\" data-end=\"838\">Os resultados s\u00e3o especialmente eficazes em pares lingu\u00edsticos que envolvem o ingl\u00eas, espanhol, franc\u00eas, italiano e portugu\u00eas.<\/p>\n<p data-start=\"840\" data-end=\"1309\" data-is-last-node=\"\" data-is-only-node=\"\">Para tarefas complexas como a tradu\u00e7\u00e3o de fala, o uso de prompts com Cadeia de Pensamento (Chain-of-Thought) pode potencializar ainda mais a qualidade dos resultados. Na vers\u00e3o de lan\u00e7amento, o Gemma 3n consegue processar clipes de \u00e1udio com at\u00e9 30 segundos de dura\u00e7\u00e3o.<\/p>\n<p data-start=\"840\" data-end=\"1309\" data-is-last-node=\"\" data-is-only-node=\"\">No entanto, o encoder subjacente possui potencial para lidar com \u00e1udios ainda mais extensos mediante treinamento adicional, o que abre caminho para futuras aplica\u00e7\u00f5es em streaming com baixa lat\u00eancia.<\/p>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>Gemma 3n oferece capacidades multimodais em dispositivos, transformando a IA on-device.<\/p>\n","protected":false},"author":6,"featured_media":27365,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[20],"tags":[],"class_list":["post-27345","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia-e-inovacoes"],"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/27345","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/comments?post=27345"}],"version-history":[{"count":1,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/27345\/revisions"}],"predecessor-version":[{"id":27366,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/27345\/revisions\/27366"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/media\/27365"}],"wp:attachment":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/media?parent=27345"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/categories?post=27345"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/tags?post=27345"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}