O modelo Mu é uma inovação em processamento de linguagem natural que melhora as Configurações do Windows, operando localmente em NPUs para oferecer respostas rápidas e precisas. Utilizando técnicas de quantização e ajustes finos, Mu proporciona alta eficiência e baixa latência.
O modelo de linguagem Mu é uma inovação que transforma as configurações do Windows. Projetado para operar localmente com alta eficiência, Mu utiliza a Unidade de Processamento Neural (NPU) para responder rapidamente a consultas de linguagem natural, otimizando a experiência do usuário no Windows.
Treinamento do modelo Mu
O treinamento do Modelo Mu é um processo meticuloso que visa otimizar seu desempenho para aplicações em dispositivos locais, especialmente em PCs com Copilot+.
O modelo Mu foi concebido para operar com eficiência nas Unidades de Processamento Neural (NPUs), aproveitando ao máximo suas capacidades de paralelismo e limites de memória.
Para alcançar esse objetivo, o desenvolvimento do Mu envolveu a adaptação da arquitetura do modelo e a configuração dos parâmetros para se adequarem às características específicas do hardware.
Isso incluiu a escolha das dimensões das camadas, como os tamanhos ocultos e as larguras das redes de feed-forward, que foram alinhadas com os tamanhos de tensor e unidades de vetorização preferidos pelas NPUs.
Dessa forma, operações como multiplicações de matrizes são executadas com máxima eficiência, resultando em menor latência e maior taxa de transferência.
Além disso, o Mu utiliza técnicas de compartilhamento de pesos em componentes específicos para reduzir o número total de parâmetros.
Por exemplo, as mesmas ponderações são usadas tanto para representar tokens de entrada quanto para gerar logits de saída, economizando memória e melhorando a consistência entre os vocabulários de codificação e decodificação.
O treinamento do Mu também incluiu a aplicação de técnicas avançadas de quantização, como a Quantização Pós-Treinamento (PTQ), para converter os pesos do modelo e as ativações de representações em ponto flutuante para inteiros, principalmente de 8 e 16 bits.
Essa abordagem acelerou significativamente o cronograma de implantação do modelo, otimizando-o para rodar eficientemente em dispositivos Copilot+.
Por fim, o Mu foi treinado em GPUs A100 no Azure Machine Learning, em várias fases, começando com o pré-treinamento em centenas de bilhões de tokens educacionais de alta qualidade.
Isso permitiu ao modelo aprender sintaxe, gramática, semântica e algum conhecimento de mundo, formando uma base sólida para tarefas específicas com dados adicionais e técnicas de adaptação de baixa classificação (LoRA).
Desempenho Compacto e Eficiente
O desempenho compacto e eficiente do modelo Mu é um dos seus principais atributos, destacando-se por sua capacidade de operar com alta eficiência em dispositivos de borda, como PCs com Copilot+.
Este modelo foi projetado para maximizar a performance enquanto minimiza o uso de recursos, aproveitando ao máximo as capacidades das Unidades de Processamento Neural (NPUs).
Mu incorpora três aprimoramentos chave em sua arquitetura de transformadores para extrair mais desempenho de um modelo menor:
- Dual LayerNorm (pré e pós-LN): a normalização antes e depois de cada subcamada mantém as ativações bem escaladas, estabilizando o treinamento com um custo mínimo;
- Embeddings Posicionais Rotativos (RoPE): rotações complexas embutem posições relativas diretamente na atenção, melhorando o raciocínio de contexto longo e permitindo extrapolação sem emendas para sequências mais longas do que as vistas no treinamento;
- Atenção de Consulta Agrupada (GQA): compartilhar chaves e valores entre grupos de cabeçotes reduz drasticamente os parâmetros de atenção e memória, preservando a diversidade dos cabeçotes, o que corta a latência e o consumo de energia nas NPUs.
Esses aprimoramentos, combinados com técnicas de treinamento como cronogramas de aquecimento-decrescimento estáveis e o otimizador Muon, resultam em uma precisão mais forte e inferências mais rápidas dentro do orçamento restrito de dispositivos de borda do Mu.
Comparado a modelos de tamanho similar, o Mu é notavelmente eficiente, oferecendo latência de primeiro token cerca de 47% menor e velocidade de decodificação 4,7 vezes maior em NPUs Qualcomm Hexagon, por exemplo.
Tais ganhos são críticos para aplicações em tempo real e em dispositivos locais, onde recursos são limitados e a eficiência é primordial.
