Modelo AI multimodal da ByteDance revoluciona edição de imagens

Carlos Aono 27 de maio de 2025

0 153 2 minutos lidos

Modelo AI Multimodal da ByteDance Revoluciona Edição de Imagens

A ByteDance lançou o modelo AI multimodal Bagel, que se destaca na edição de imagens com suas capacidades avançadas de manipulação visual, permitindo edições livres e síntese multivisão, além de uma melhor compreensão da relação entre texto e imagem, resultando em edições precisas e inovadoras.

ByteDance lançou o modelo de inteligência artificial multimodal Bagel, capaz de entender, gerar e editar imagens. Com suporte para manipulação visual livre e síntese multivisão, o Bagel supera modelos existentes em edição de imagens. Disponível em repositórios populares como GitHub, o Bagel oferece uma nova dimensão em edição visual.

Capacidades avançadas de manipulação visual

As capacidades avançadas de manipulação visual do modelo Bagel são um marco significativo no desenvolvimento de modelos de inteligência artificial multimodal.

Com a habilidade de aceitar tanto texto quanto imagens como entrada, o Bagel oferece uma gama de funcionalidades que aprimoram a interação entre diferentes modalidades de dados.

Entre suas capacidades, destaca-se a manipulação visual livre, que permite edições criativas e personalizadas, como a adição ou remoção de elementos em uma imagem, sem comprometer a integridade visual.

Essa funcionalidade é particularmente útil em aplicações de design gráfico e fotografia, onde a precisão e a criatividade são essenciais.

Além disso, o Bagel é capaz de realizar sintetização multivisão, uma técnica que permite a criação de novas perspectivas de uma imagem existente.

Isso é possível graças ao seu treinamento em dados intercalados multimodais, que fornecem ao modelo uma compreensão mais profunda das relações espaciais e contextuais dentro de uma imagem.

Outra capacidade notável é a modelagem do mundo, que refere-se à habilidade do modelo em entender o funcionamento visual do mundo real, incluindo a relação entre objetos e o contexto físico.

Isso é crucial para aplicações que exigem uma representação precisa do ambiente, como em simulações e realidade aumentada.

Desempenho superior do Bagel em edição de imagens

O desempenho superior do modelo Bagel da ByteDance em edição de imagens é um dos seus principais destaques. Este modelo foi projetado para realizar tarefas complexas de edição, como adicionar emoções a uma imagem, remover ou substituir elementos e realizar transferências de estilo.

Essas capacidades permitem que o Bagel ofereça edições mais precisas e contextualmente relevantes em comparação com outros modelos de linguagem visual multimodal (VLM) disponíveis no mercado.

Além disso, o Bagel é capaz de realizar edições livres, o que significa que ele pode modificar imagens sem seguir um script rígido, proporcionando uma flexibilidade criativa que é altamente valorizada em aplicações práticas.

Testes internos realizados pela ByteDance demonstraram que o Bagel supera o modelo Gemini-2-exp no GEdit-Bench, uma referência específica para avaliação de edição de imagens.

Isso reflete não apenas a capacidade técnica do Bagel, mas também sua habilidade em compreender e manipular imagens de forma inovadora.

Essas melhorias são possíveis graças ao treinamento em dados multimodais em larga escala, permitindo que o Bagel entenda melhor a relação entre texto e imagem.

Como resultado, o modelo pode gerar edições que não apenas atendem aos requisitos técnicos, mas também às expectativas criativas dos usuários.