Alibaba aposta no Qwen3.5 para liderar nova geração de IA multimodal

Carlos Aono 16 de fevereiro de 2026

0 83 3 minutos lidos

Alibaba aposta no Qwen3.5 para liderar nova geração de IA multimodal

Alibaba anunciou o Qwen3.5 como sua mais recente aposta em modelos de larga escala. A versão inicial reúne 397 bilhões de parâmetros, mas ativa apenas uma fração deles por operação, estratégia que busca acelerar a inferência sem sacrificar a capacidade analítica.

A Alibaba apresentou oficialmente o Qwen3.5, nova geração de modelos de inteligência artificial que marca um avanço relevante na corrida global por sistemas mais eficientes e escaláveis. A estreia ocorre com a versão open-weight Qwen3.5-397B-A17B, projetada para combinar alto desempenho em raciocínio, programação e compreensão multimodal com menor custo computacional.

Modelo Qwen3.5 integra texto e visão

A Alibaba anunciou o lançamento do Qwen3.5, nova geração de modelos de inteligência artificial que estreia com a versão open-weight Qwen3.5-397B-A17B.

O modelo é descrito como o primeiro da série 3.5 e combina capacidades avançadas de raciocínio, programação, atuação como agente e compreensão multimodal, integrando texto e visão de forma nativa.

A proposta é oferecer maior produtividade para desenvolvedores e empresas, com ganhos relevantes de eficiência e desempenho.

Embora reúna 397 bilhões de parâmetros, o modelo ativa apenas 17 bilhões por passagem, graças a uma arquitetura híbrida que combina atenção linear baseada em Redes Delta com Portões e uma mistura esparsa de especialistas.

Na prática, isso permite reduzir custos computacionais e acelerar a inferência sem comprometer a capacidade do sistema. A cobertura linguística também foi ampliada de 119 para 201 idiomas e dialetos, reforçando a ambição global da plataforma.

Arquitetura híbrida e ganhos de desempenho

O Qwen3.5 foi construído sobre a arquitetura Qwen3-Next, com maior grau de esparsidade no modelo MoE e um sistema híbrido de atenção que combina Gated DeltaNet e Gated Attention.

O pré-treinamento ocorreu em escala significativamente superior à geração anterior, com grande volume de dados textuais e visuais, incluindo conteúdos multilíngues, de ciência, tecnologia, engenharia e matemática, além de materiais voltados a raciocínio avançado.

Segundo a empresa, o modelo alcança desempenho comparável a sistemas com mais de 1 trilhão de parâmetros, mesmo operando com ativação parcial.

Em termos de velocidade, a taxa de decodificação apresenta ganhos expressivos em diferentes comprimentos de contexto, incluindo janelas de 32 mil e 256 mil tokens.

Os avanços também estão ligados à ampliação dos ambientes de aprendizado por reforço. Em vez de otimizar métricas específicas, o treinamento priorizou cenários mais complexos e generalizáveis, o que resultou em melhorias nas capacidades gerais de atuação como agente.

O desempenho agregado foi medido a partir de diferentes benchmarks voltados a planejamento, uso de ferramentas e interação multimodal.

A infraestrutura de treinamento foi redesenhada para lidar com multimodalidade de forma eficiente. A companhia adotou paralelismo desacoplado entre componentes de visão e linguagem, uso extensivo de ativações esparsas e um pipeline nativo em FP8, reduzindo consumo de memória e elevando a velocidade de processamento.

A estrutura de aprendizado por reforço foi implementada de maneira assíncrona e desagregada, permitindo melhor uso de hardware e maior estabilidade no treinamento em larga escala.

Modelo hospedado e uso prático

Além da versão open-weight, a empresa disponibilizou o Qwen3.5-Plus como modelo hospedado por meio do Alibaba Cloud Model Studio.

Essa versão oferece janela de contexto padrão de até 1 milhão de tokens e integração nativa com ferramentas oficiais, incluindo busca na web e interpretador de código.

No Qwen Chat, o sistema pode ser utilizado em três modos distintos. No modo automático, o modelo ajusta dinamicamente o nível de raciocínio e pode acionar ferramentas externas.

No modo de raciocínio, aprofunda o processamento para resolver tarefas complexas. Já no modo rápido, prioriza respostas imediatas, reduzindo o consumo de tokens.

Com a combinação de arquitetura eficiente, expansão multilíngue e foco em agentes capazes de múltiplas interações, o Qwen3.5 marca uma nova etapa na disputa global por modelos de IA mais rápidos, escaláveis e versáteis, voltados tanto para pesquisa quanto para aplicações empresariais.