Descubra o potencial do ERNIE 4.5 com código aberto

Carlos Aono 30 de junho de 2025

0 170 3 minutos lidos

Descubra o Potencial do ERNIE 4.5 com Código Aberto

O ERNIE 4.5 se destaca por suas inovações em pré-treinamento MoE e infraestrutura eficiente. Ele supera modelos maiores em benchmarks de desempenho, especialmente em tarefas de raciocínio e conhecimento, e é compatível com PaddlePaddle e PyTorch, oferecendo ferramentas para ajuste fino e implantação eficiente.

O ERNIE 4.5 foi lançado como código aberto, revolucionando o campo dos modelos multimodais com suas inovações. Este lançamento inclui modelos de grande escala que capturam nuances de informações multimodais, melhorando o desempenho em tarefas de compreensão de texto e imagem. As inovações do ERNIE 4.5 prometem impulsionar a pesquisa e o desenvolvimento na área.

Introdução ao ERNIE 4.5

O ERNIE 4.5 é uma família de modelos multimodais em larga escala que foi recentemente disponibilizada como código aberto.

Composta por 10 variantes distintas, essa família de modelos utiliza a arquitetura Mixture-of-Experts (MoE), apresentando modelos com 47B e 3B parâmetros ativos, além de um modelo denso de 0.3B parâmetros.

A inovação do ERNIE 4.5 reside em sua estrutura de modalidade heterogênea, que permite o compartilhamento de parâmetros entre modalidades, enquanto mantém parâmetros dedicados para cada modalidade individual.

Essa abordagem garante uma compreensão multimodal aprimorada sem comprometer o desempenho em tarefas relacionadas a texto.

Os modelos ERNIE 4.5 são treinados com eficiência ideal utilizando o framework de aprendizado profundo PaddlePaddle, o que também possibilita inferência de alto desempenho e implantação simplificada.

Destaques do ERNIE 4.5

O ERNIE 4.5 se destaca por suas inovações em três áreas principais, que tornam essa família de modelos única no campo dos modelos multimodais.

Primeiro, a Pré-treinamento Multimodal Heterogêneo MoE permite um treinamento conjunto em modalidades textuais e visuais.

Isso melhora a captura de nuances de informações multimodais e aprimora o desempenho em tarefas de compreensão e geração de texto, entendimento de imagens e raciocínio cruzado entre modalidades.

Para alcançar isso sem que uma modalidade prejudique a aprendizagem da outra, foi projetada uma estrutura MoE heterogênea, incorporando roteamento isolado por modalidade e perdas ortogonais de roteador e token equilibrado multimodal.

Essas escolhas arquitetônicas garantem que ambas as modalidades sejam efetivamente representadas, permitindo reforço mútuo durante o treinamento.

Em segundo lugar, a Infraestrutura de Escalonamento Eficiente propõe uma nova paralelização híbrida heterogênea e uma estratégia de balanceamento de carga hierárquico para o treinamento eficiente dos modelos ERNIE 4.5.

Com uso de paralelismo de especialistas intra-nó, agendamento de pipeline eficiente em memória, treinamento de precisão mista FP8 e métodos de recomputação refinados, alcançamos uma notável taxa de transferência de pré-treinamento.

Para inferência, métodos de colaboração paralela multi-especialista e algoritmos de quantização de código convolucional são propostos para alcançar quantização sem perdas de 4 bits/2 bits.

Além disso, foi introduzido a desagregação PD com troca dinâmica de papéis para utilização eficaz de recursos, melhorando o desempenho de inferência dos modelos MoE do ERNIE 4.5.

Por último, o Pós-treinamento Específico para Modalidade atende aos diversos requisitos de aplicações do mundo real, com variantes do modelo pré-treinado otimizadas para modalidades específicas.

Resultados de desempenho e benchmark

Os modelos da família ERNIE 4.5 demonstram um desempenho excepcional em diversos benchmarks, destacando-se em tarefas de generalização, raciocínio e conhecimento intensivo.

O modelo ERNIE-4.5-300B-A47B-Base supera o DeepSeek-V3-671B-A37B-Base em 22 de 28 benchmarks, mostrando melhorias significativas em todas as categorias principais de capacidade.

Isso ressalta os avanços substanciais em generalização e raciocínio, além de tarefas intensivas em conhecimento, obtidos ao escalar o modelo ERNIE-4.5-Base em relação a outros modelos grandes de ponta.

Com um tamanho total de parâmetro de 21B (aproximadamente 70% do Qwen3-30B), o ERNIE-4.5-21B-A3B-Base supera o Qwen3-30B-A3B-Base em vários benchmarks de matemática e raciocínio, incluindo BBH e CMATH.

O ERNIE-4.5-21B-A3B-Base permanece altamente competitivo, dado seu tamanho de modelo significativamente menor, demonstrando notável eficiência de parâmetros e compensações de desempenho favoráveis.

O modelo pós-treinado ERNIE-4.5-300B-A47B mostra forças significativas em seguimento de instruções e tarefas de conhecimento, conforme evidenciado por pontuações de ponta em benchmarks como IFEval, Multi-IF, SimpleQA e ChineseSimpleQA.

O modelo leve ERNIE-4.5-21B-A3B atinge desempenho competitivo em comparação com o Qwen3-30B-A3B, apesar de ter aproximadamente 30% menos parâmetros totais.

No modo não-pensante, o ERNIE-4.5-VL exibe proficiência notável em percepção visual, compreensão de documentos e gráficos, e conhecimento visual, obtendo resultados fortes em uma variedade de benchmarks estabelecidos.

Sob o modo pensante, o ERNIE-4.5-VL não apenas demonstra habilidades de raciocínio aprimoradas em comparação com o modo não-pensante, mas também mantém as fortes capacidades de percepção deste último.

O ERNIE-4.5-VL-424B-A47B oferece resultados consistentemente fortes em vários benchmarks de avaliação multimodal.

Seu modo pensante oferece uma vantagem distinta em benchmarks desafiadores como MathVista, MMMU e VisualPuzzle, enquanto mantém desempenho competitivo em conjuntos de dados focados em percepção como CV-Bench e RealWorldQA.

O modelo leve de visão-linguagem ERNIE-4.5-28B-A3B alcança desempenho competitivo ou até superior em comparação com Qwen2.5-VL-7B e Qwen2.5-VL-32B na maioria dos benchmarks, apesar de usar significativamente menos parâmetros de ativação.

Notavelmente, nosso modelo leve também suporta modos de pensamento e não-pensamento, oferecendo funcionalidades consistentes com o ERNIE-4.5-VL-424B-A47B.