O HunyuanPortrait da Tencent é um modelo de IA que transforma imagens em vídeos animados realistas, utilizando uma arquitetura de difusão para capturar dados faciais e movimentos. Disponível como open-source, essa tecnologia democratiza a criação de animações de alta qualidade.
A Tencent lançou o modelo de inteligência artificial HunyuanPortrait, que promete revolucionar a animação de retratos estáticos. Baseado na arquitetura de difusão, o modelo é capaz de gerar vídeos animados realistas a partir de imagens de referência. A empresa disponibilizou o modelo como open-source, permitindo que desenvolvedores e pesquisadores acessem e utilizem a tecnologia.
HunyuanPortrait transforma imagens estáticas em vídeos realistas
O HunyuanPortrait é um modelo de inteligência artificial desenvolvido pela Tencent que transforma imagens estáticas em vídeos animados altamente realistas.
Utilizando a arquitetura de difusão, o modelo captura dados faciais e movimentos espaciais a partir de um vídeo guia, sincronizando-os com a imagem de referência. Isso permite que expressões faciais e movimentos sutis sejam replicados com precisão.
A tecnologia por trás do HunyuanPortrait é baseada em modelos de difusão estáveis, que incluem um codificador de controle de condição.
Esses codificadores pré-treinados separam informações de movimento e identidade em vídeos, permitindo que os sinais de controle sejam injetados na imagem estática através de um unet de remoção de ruído. Isso garante precisão espacial e consistência temporal nos vídeos gerados.
Com o HunyuanPortrait, animadores e estúdios menores podem acessar uma ferramenta poderosa para criar animações de alta qualidade sem a necessidade de sistemas caros de captura de movimento.
A tecnologia promete democratizar o acesso à animação realista, tornando-a mais acessível para criadores independentes e pequenas produções.
Arquitetura de difusão do HunyuanPortrait
A arquitetura de difusão do HunyuanPortrait é um dos aspectos mais inovadores desse modelo de inteligência artificial.
Baseada na estrutura de modelos de difusão estáveis, a arquitetura utiliza um codificador de controle de condição para separar informações de movimento e identidade nos vídeos de entrada.
Os codificadores pré-treinados capturam sinais de controle que são injetados na imagem estática através de um unet de remoção de ruído.
Esse processo permite que a imagem estática ganhe vida, com movimentos faciais e expressões realistas, mantendo a precisão espacial e a consistência temporal.
Uma das principais vantagens dessa arquitetura é a sua capacidade de trazer precisão e realismo às animações, sem a necessidade de equipamentos caros e complexos.
Com o HunyuanPortrait, a Tencent oferece uma ferramenta poderosa que pode ser utilizada em diversas aplicações, desde a produção de filmes até a criação de conteúdo para mídias sociais.
