O ERNIE 4.5 se destaca por suas inovações em pré-treinamento MoE e infraestrutura eficiente. Ele supera modelos maiores em benchmarks de desempenho, especialmente em tarefas de raciocínio e conhecimento, e é compatível com PaddlePaddle e PyTorch, oferecendo ferramentas para ajuste fino e implantação eficiente.
O ERNIE 4.5 foi lançado como código aberto, revolucionando o campo dos modelos multimodais com suas inovações. Este lançamento inclui modelos de grande escala que capturam nuances de informações multimodais, melhorando o desempenho em tarefas de compreensão de texto e imagem. As inovações do ERNIE 4.5 prometem impulsionar a pesquisa e o desenvolvimento na área.
Introdução ao ERNIE 4.5
O ERNIE 4.5 é uma família de modelos multimodais em larga escala que foi recentemente disponibilizada como código aberto.
Composta por 10 variantes distintas, essa família de modelos utiliza a arquitetura Mixture-of-Experts (MoE), apresentando modelos com 47B e 3B parâmetros ativos, além de um modelo denso de 0.3B parâmetros.
A inovação do ERNIE 4.5 reside em sua estrutura de modalidade heterogênea, que permite o compartilhamento de parâmetros entre modalidades, enquanto mantém parâmetros dedicados para cada modalidade individual.
Essa abordagem garante uma compreensão multimodal aprimorada sem comprometer o desempenho em tarefas relacionadas a texto.
Os modelos ERNIE 4.5 são treinados com eficiência ideal utilizando o framework de aprendizado profundo PaddlePaddle, o que também possibilita inferência de alto desempenho e implantação simplificada.
Destaques do ERNIE 4.5
O ERNIE 4.5 se destaca por suas inovações em três áreas principais, que tornam essa família de modelos única no campo dos modelos multimodais.
Primeiro, a Pré-treinamento Multimodal Heterogêneo MoE permite um treinamento conjunto em modalidades textuais e visuais.
Isso melhora a captura de nuances de informações multimodais e aprimora o desempenho em tarefas de compreensão e geração de texto, entendimento de imagens e raciocínio cruzado entre modalidades.
Para alcançar isso sem que uma modalidade prejudique a aprendizagem da outra, foi projetada uma estrutura MoE heterogênea, incorporando roteamento isolado por modalidade e perdas ortogonais de roteador e token equilibrado multimodal.
Essas escolhas arquitetônicas garantem que ambas as modalidades sejam efetivamente representadas, permitindo reforço mútuo durante o treinamento.
Em segundo lugar, a Infraestrutura de Escalonamento Eficiente propõe uma nova paralelização híbrida heterogênea e uma estratégia de balanceamento de carga hierárquico para o treinamento eficiente dos modelos ERNIE 4.5.
Com uso de paralelismo de especialistas intra-nó, agendamento de pipeline eficiente em memória, treinamento de precisão mista FP8 e métodos de recomputação refinados, alcançamos uma notável taxa de transferência de pré-treinamento.
Para inferência, métodos de colaboração paralela multi-especialista e algoritmos de quantização de código convolucional são propostos para alcançar quantização sem perdas de 4 bits/2 bits.
Além disso, foi introduzido a desagregação PD com troca dinâmica de papéis para utilização eficaz de recursos, melhorando o desempenho de inferência dos modelos MoE do ERNIE 4.5.
Por último, o Pós-treinamento Específico para Modalidade atende aos diversos requisitos de aplicações do mundo real, com variantes do modelo pré-treinado otimizadas para modalidades específicas.
Resultados de desempenho e benchmark
Os modelos da família ERNIE 4.5 demonstram um desempenho excepcional em diversos benchmarks, destacando-se em tarefas de generalização, raciocínio e conhecimento intensivo.
O modelo ERNIE-4.5-300B-A47B-Base supera o DeepSeek-V3-671B-A37B-Base em 22 de 28 benchmarks, mostrando melhorias significativas em todas as categorias principais de capacidade.
Isso ressalta os avanços substanciais em generalização e raciocínio, além de tarefas intensivas em conhecimento, obtidos ao escalar o modelo ERNIE-4.5-Base em relação a outros modelos grandes de ponta.
Com um tamanho total de parâmetro de 21B (aproximadamente 70% do Qwen3-30B), o ERNIE-4.5-21B-A3B-Base supera o Qwen3-30B-A3B-Base em vários benchmarks de matemática e raciocínio, incluindo BBH e CMATH.
O ERNIE-4.5-21B-A3B-Base permanece altamente competitivo, dado seu tamanho de modelo significativamente menor, demonstrando notável eficiência de parâmetros e compensações de desempenho favoráveis.
O modelo pós-treinado ERNIE-4.5-300B-A47B mostra forças significativas em seguimento de instruções e tarefas de conhecimento, conforme evidenciado por pontuações de ponta em benchmarks como IFEval, Multi-IF, SimpleQA e ChineseSimpleQA.
O modelo leve ERNIE-4.5-21B-A3B atinge desempenho competitivo em comparação com o Qwen3-30B-A3B, apesar de ter aproximadamente 30% menos parâmetros totais.
No modo não-pensante, o ERNIE-4.5-VL exibe proficiência notável em percepção visual, compreensão de documentos e gráficos, e conhecimento visual, obtendo resultados fortes em uma variedade de benchmarks estabelecidos.
Sob o modo pensante, o ERNIE-4.5-VL não apenas demonstra habilidades de raciocínio aprimoradas em comparação com o modo não-pensante, mas também mantém as fortes capacidades de percepção deste último.
O ERNIE-4.5-VL-424B-A47B oferece resultados consistentemente fortes em vários benchmarks de avaliação multimodal.
Seu modo pensante oferece uma vantagem distinta em benchmarks desafiadores como MathVista, MMMU e VisualPuzzle, enquanto mantém desempenho competitivo em conjuntos de dados focados em percepção como CV-Bench e RealWorldQA.
O modelo leve de visão-linguagem ERNIE-4.5-28B-A3B alcança desempenho competitivo ou até superior em comparação com Qwen2.5-VL-7B e Qwen2.5-VL-32B na maioria dos benchmarks, apesar de usar significativamente menos parâmetros de ativação.
Notavelmente, nosso modelo leve também suporta modos de pensamento e não-pensamento, oferecendo funcionalidades consistentes com o ERNIE-4.5-VL-424B-A47B.
