Modelos MAI revolucionam a plataforma Microsoft Foundry

Carlos Aono 6 de abril de 2026

0 76 2 minutos lidos

Modelos MAI revolucionam a plataforma Microsoft Foundry

A Microsoft anunciou novos avanços em inteligência artificial com o lançamento de três modelos MAI na plataforma Foundry. As soluções ampliam as capacidades de criação e processamento de conteúdo, abrangendo transcrição de áudio, geração de voz e produção de imagens.

A Microsoft lançou três novos modelos de IA na Foundry: MAI-Transcribe-1 para transcrição de áudio, MAI-Voice-1 para geração de voz natural e MAI-Image-2 para criação de imagens de alta qualidade, todos com desempenho competitivo em velocidade e custo. Com essas inovações, a Microsoft busca transformar a experiência dos desenvolvedores e usuários em suas plataformas.

MAI-Transcribe-1: transcrição de áudio avançada

O MAI-Transcribe-1 é um modelo de transcrição de áudio de última geração, projetado para converter fala em texto com precisão em 25 idiomas mais utilizados.

Este modelo foi desenvolvido para operar em ambientes reais e desordenados, garantindo alta qualidade de transcrição mesmo em condições adversas.

Com uma velocidade de transcrição em lote 2,5 vezes mais rápida que a oferta anterior da Microsoft Azure, o MAI-Transcribe-1 não é apenas o mais preciso, mas também incrivelmente rápido.

Esta eficiência faz com que ele se destaque como a melhor relação custo-benefício entre os provedores de nuvem de grande porte.

MAI-Voice-1: feração de voz natural e realista

O MAI-Voice-1 é um modelo de geração de voz de alto nível, projetado para criar discursos naturais e realistas, ricos em nuances e expressões emocionais.

Este modelo preserva a identidade do falante, mesmo em conteúdos longos, garantindo uma experiência auditiva imersiva e autêntica.

Uma das inovações do MAI-Voice-1 é a capacidade de criar vozes personalizadas de forma segura e eficiente, utilizando apenas alguns segundos de áudio.

Isso transforma a maneira como desenvolvedores podem criar experiências de voz e agentes de voz de alta qualidade e velocidade.

Com a capacidade de gerar 60 segundos de áudio em apenas um segundo, o MAI-Voice-1 utiliza eficientemente GPUs, oferecendo essa qualidade e rapidez de forma acessível.

MAI-Image-2: performance de geração de imagens turbo

O MAI-Image-2 é um modelo de geração de imagens que oferece desempenho turbo, ideal para fotógrafos, designers e contadores de histórias visuais.

Este modelo se destaca por sua capacidade de gerar imagens com iluminação natural, tons de pele precisos e texto claro em diagramas e gráficos.

Após sua estreia como uma das três principais famílias de modelos na Arena.ai, o MAI-Image-2 proporciona tempos de geração pelo menos duas vezes mais rápidos no Foundry e Copilot, mantendo a qualidade.

Essa eficiência não vem com custos elevados, já que o modelo, assim como o seu antecessor, é oferecido com uma relação preço-desempenho competitiva.

Segundo Rob Reilly, Diretor Criativo Global da WPP, o MAI-Image-2 é um divisor de águas, respeitando a arte envolvida na criação de imagens prontas para campanhas reais.