{"id":26590,"date":"2025-06-24T15:30:00","date_gmt":"2025-06-24T18:30:00","guid":{"rendered":"https:\/\/www.solucoesindustriais.com.br\/news\/?p=26590"},"modified":"2025-06-24T14:19:37","modified_gmt":"2025-06-24T17:19:37","slug":"modelo-de-linguagem-mu","status":"publish","type":"post","link":"https:\/\/www.solucoesindustriais.com.br\/news\/tecnologia-e-inovacoes\/modelo-de-linguagem-mu\/","title":{"rendered":"Windows recebe melhorias com o modelo de linguagem Mu"},"content":{"rendered":"<div class=\"tts_content_wrapper_1\" ><h3>O modelo Mu \u00e9 uma inova\u00e7\u00e3o em processamento de linguagem natural que melhora as Configura\u00e7\u00f5es do Windows, operando localmente em NPUs para oferecer respostas r\u00e1pidas e precisas. Utilizando t\u00e9cnicas de quantiza\u00e7\u00e3o e ajustes finos, Mu proporciona alta efici\u00eancia e baixa lat\u00eancia.<\/h3>\n<p>O modelo de linguagem Mu \u00e9 uma inova\u00e7\u00e3o que transforma as configura\u00e7\u00f5es do Windows. Projetado para operar localmente com alta efici\u00eancia, Mu utiliza a Unidade de Processamento Neural (NPU) para responder rapidamente a consultas de linguagem natural, otimizando a experi\u00eancia do usu\u00e1rio no Windows.<\/p>\n<h2>Treinamento do modelo Mu<\/h2>\n<p>O treinamento do <strong>Modelo Mu<\/strong> \u00e9 um processo meticuloso que visa otimizar seu desempenho para aplica\u00e7\u00f5es em dispositivos locais, especialmente em PCs com Copilot+.<\/p>\n<p>O modelo Mu foi concebido para operar com efici\u00eancia nas Unidades de Processamento Neural (NPUs), aproveitando ao m\u00e1ximo suas capacidades de paralelismo e limites de mem\u00f3ria.<\/p>\n<p>Para alcan\u00e7ar esse objetivo, o desenvolvimento do Mu envolveu a adapta\u00e7\u00e3o da arquitetura do modelo e a configura\u00e7\u00e3o dos par\u00e2metros para se adequarem \u00e0s caracter\u00edsticas espec\u00edficas do hardware.<\/p>\n<p>Isso incluiu a escolha das dimens\u00f5es das camadas, como os tamanhos ocultos e as larguras das redes de feed-forward, que foram alinhadas com os tamanhos de tensor e unidades de vetoriza\u00e7\u00e3o preferidos pelas NPUs.<\/p>\n<p>Dessa forma, opera\u00e7\u00f5es como multiplica\u00e7\u00f5es de matrizes s\u00e3o executadas com m\u00e1xima efici\u00eancia, resultando em menor lat\u00eancia e maior taxa de transfer\u00eancia.<\/p>\n<p>Al\u00e9m disso, o Mu utiliza t\u00e9cnicas de <em>compartilhamento de pesos<\/em> em componentes espec\u00edficos para reduzir o n\u00famero total de par\u00e2metros.<\/p>\n<p>Por exemplo, as mesmas pondera\u00e7\u00f5es s\u00e3o usadas tanto para representar tokens de entrada quanto para gerar logits de sa\u00edda, economizando mem\u00f3ria e melhorando a consist\u00eancia entre os vocabul\u00e1rios de codifica\u00e7\u00e3o e decodifica\u00e7\u00e3o.<\/p>\n<p>O treinamento do Mu tamb\u00e9m incluiu a aplica\u00e7\u00e3o de t\u00e9cnicas avan\u00e7adas de quantiza\u00e7\u00e3o, como a Quantiza\u00e7\u00e3o P\u00f3s-Treinamento (PTQ), para converter os pesos do modelo e as ativa\u00e7\u00f5es de representa\u00e7\u00f5es em ponto flutuante para inteiros, principalmente de 8 e 16 bits.<\/p>\n<p>Essa abordagem acelerou significativamente o cronograma de implanta\u00e7\u00e3o do modelo, otimizando-o para rodar eficientemente em dispositivos Copilot+.<\/p>\n<p>Por fim, o Mu foi treinado em GPUs A100 no Azure Machine Learning, em v\u00e1rias fases, come\u00e7ando com o pr\u00e9-treinamento em centenas de bilh\u00f5es de tokens educacionais de alta qualidade.<\/p>\n<p>Isso permitiu ao modelo aprender sintaxe, gram\u00e1tica, sem\u00e2ntica e algum conhecimento de mundo, formando uma base s\u00f3lida para tarefas espec\u00edficas com dados adicionais e t\u00e9cnicas de adapta\u00e7\u00e3o de baixa classifica\u00e7\u00e3o (LoRA).<\/p>\n<h2>Desempenho Compacto e Eficiente<\/h2>\n<p>O <strong>desempenho compacto e eficiente<\/strong> do modelo Mu \u00e9 um dos seus principais atributos, destacando-se por sua capacidade de operar com alta efici\u00eancia em dispositivos de borda, como PCs com Copilot+.<\/p>\n<p>Este modelo foi projetado para maximizar a performance enquanto minimiza o uso de recursos, aproveitando ao m\u00e1ximo as capacidades das Unidades de Processamento Neural (NPUs).<\/p>\n<p>Mu incorpora tr\u00eas aprimoramentos chave em sua arquitetura de transformadores para extrair mais desempenho de um modelo menor:<\/p>\n<ul>\n<li><strong>Dual LayerNorm (pr\u00e9 e p\u00f3s-LN)<\/strong>: a normaliza\u00e7\u00e3o antes e depois de cada subcamada mant\u00e9m as ativa\u00e7\u00f5es bem escaladas, estabilizando o treinamento com um custo m\u00ednimo;<\/li>\n<li><strong>Embeddings Posicionais Rotativos (RoPE)<\/strong>: rota\u00e7\u00f5es complexas embutem posi\u00e7\u00f5es relativas diretamente na aten\u00e7\u00e3o, melhorando o racioc\u00ednio de contexto longo e permitindo extrapola\u00e7\u00e3o sem emendas para sequ\u00eancias mais longas do que as vistas no treinamento;<\/li>\n<li><strong>Aten\u00e7\u00e3o de Consulta Agrupada (GQA)<\/strong>: compartilhar chaves e valores entre grupos de cabe\u00e7otes reduz drasticamente os par\u00e2metros de aten\u00e7\u00e3o e mem\u00f3ria, preservando a diversidade dos cabe\u00e7otes, o que corta a lat\u00eancia e o consumo de energia nas NPUs.<\/li>\n<\/ul>\n<p>Esses aprimoramentos, combinados com t\u00e9cnicas de treinamento como cronogramas de aquecimento-decrescimento est\u00e1veis e o otimizador Muon, resultam em uma precis\u00e3o mais forte e infer\u00eancias mais r\u00e1pidas dentro do or\u00e7amento restrito de dispositivos de borda do Mu.<\/p>\n<p>Comparado a modelos de tamanho similar, o Mu \u00e9 notavelmente eficiente, oferecendo lat\u00eancia de primeiro token cerca de 47% menor e velocidade de decodifica\u00e7\u00e3o 4,7 vezes maior em NPUs Qualcomm Hexagon, por exemplo.<\/p>\n<p>Tais ganhos s\u00e3o cr\u00edticos para aplica\u00e7\u00f5es em tempo real e em dispositivos locais, onde recursos s\u00e3o limitados e a efici\u00eancia \u00e9 primordial.<\/p>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>Modelo de linguagem Mu otimiza configura\u00e7\u00f5es do Windows, com alta efici\u00eancia em dispositivos locais.<\/p>\n","protected":false},"author":6,"featured_media":26589,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[20],"tags":[],"class_list":["post-26590","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia-e-inovacoes"],"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/26590","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/comments?post=26590"}],"version-history":[{"count":1,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/26590\/revisions"}],"predecessor-version":[{"id":26609,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/26590\/revisions\/26609"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/media\/26589"}],"wp:attachment":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/media?parent=26590"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/categories?post=26590"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/tags?post=26590"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}