Phi-4-reasoning-plus da Microsoft supera modelos com mais parâmetros
O modelo Phi-4-reasoning-plus da Microsoft, com 14 bilhões de parâmetros, se destaca em tarefas complexas, superando modelos maiores. Ele utiliza fine-tuning supervisionado, raciocínio estruturado e aprendizado por reforço para aumentar a precisão e eficiência, sendo especialmente eficaz em benchmarks como o exame AIME 2025, o que resulta em respostas claras e precisas em contextos técnicos.
A Microsoft lançou o Phi-4-reasoning-plus, um modelo de linguagem de pesos abertos projetado para tarefas que exigem raciocínio estruturado profundo. Com 14 bilhões de parâmetros, o modelo supera outros maiores em benchmarks de matemática, ciência e lógica. Ele foi treinado com 16 bilhões de tokens, incluindo dados sintéticos e da web.
Desempenho Superior em Modelos Menores
O Phi-4-reasoning-plus da Microsoft desafia a noção de que apenas modelos de grande porte podem alcançar alto desempenho.
Com 14 bilhões de parâmetros, ele é consideravelmente menor que outros modelos de pesos abertos, como o DeepSeek-R1-Distill-70B, mas ainda assim, supera-os em benchmarks exigentes.
Um exemplo marcante é o desempenho no exame de matemática AIME 2025, onde o Phi-4-reasoning-plus obteve uma maior precisão média ao responder corretamente a todas as 30 questões na primeira tentativa, conhecido como “pass@1”.
Este feito é comparável ao desempenho do modelo DeepSeek-R1, que possui 671 bilhões de parâmetros, uma quantidade muito superior a do modelo da Microsoft.
Essa eficiência é alcançada por meio de uma estratégia de treinamento centrada em dados, que utiliza uma combinação de traços de raciocínio em cadeia sintéticos e prompts de alta qualidade filtrados.
Este método não só melhora a precisão, mas também promove a transparência e coerência na resolução de problemas complexos.
Raciocínio Estruturado com Fine-Tuning
O raciocínio estruturado do Phi-4-reasoning-plus é aprimorado por um processo de fine-tuning supervisionado. Durante esta fase, o modelo é treinado com uma mistura cuidadosamente selecionada de traços de raciocínio em cadeia sintéticos e prompts de alta qualidade.
Uma inovação chave no treinamento foi a incorporação de saídas de raciocínio estruturado marcadas com tokens especiais, como <think> e </think>.
Esses tokens orientam o modelo a separar suas etapas intermediárias de raciocínio da resposta final, promovendo tanto a transparência quanto a coerência na resolução de problemas de longo prazo.
Essa técnica não apenas melhora a clareza das respostas, mas também permite que o modelo explique suas decisões de forma mais clara, facilitando a interpretação e auditoria dos resultados, o que é essencial em aplicações que exigem precisão e responsabilidade.
Após a etapa de fine-tuning, o Phi-4-reasoning-plus passa por um processo de aprendizado por reforço para aprimorar ainda mais sua precisão e eficiência.
Para isso, a Microsoft utiliza o algoritmo Group Relative Policy Optimization (GRPO) para otimizar a saída do modelo, equilibrando correção e concisão.



