Tecnologia e Inovações

HunyuanPortrait da Tencent transforma imagens em vídeos

O HunyuanPortrait da Tencent é um modelo de IA que transforma imagens em vídeos animados realistas, utilizando uma arquitetura de difusão para capturar dados faciais e movimentos. Disponível como open-source, essa tecnologia democratiza a criação de animações de alta qualidade.

A Tencent lançou o modelo de inteligência artificial HunyuanPortrait, que promete revolucionar a animação de retratos estáticos. Baseado na arquitetura de difusão, o modelo é capaz de gerar vídeos animados realistas a partir de imagens de referência. A empresa disponibilizou o modelo como open-source, permitindo que desenvolvedores e pesquisadores acessem e utilizem a tecnologia.

HunyuanPortrait transforma imagens estáticas em vídeos realistas

O HunyuanPortrait é um modelo de inteligência artificial desenvolvido pela Tencent que transforma imagens estáticas em vídeos animados altamente realistas.

Utilizando a arquitetura de difusão, o modelo captura dados faciais e movimentos espaciais a partir de um vídeo guia, sincronizando-os com a imagem de referência. Isso permite que expressões faciais e movimentos sutis sejam replicados com precisão.

A tecnologia por trás do HunyuanPortrait é baseada em modelos de difusão estáveis, que incluem um codificador de controle de condição.

Esses codificadores pré-treinados separam informações de movimento e identidade em vídeos, permitindo que os sinais de controle sejam injetados na imagem estática através de um unet de remoção de ruído. Isso garante precisão espacial e consistência temporal nos vídeos gerados.

Com o HunyuanPortrait, animadores e estúdios menores podem acessar uma ferramenta poderosa para criar animações de alta qualidade sem a necessidade de sistemas caros de captura de movimento.

A tecnologia promete democratizar o acesso à animação realista, tornando-a mais acessível para criadores independentes e pequenas produções.

Arquitetura de difusão do HunyuanPortrait

A arquitetura de difusão do HunyuanPortrait é um dos aspectos mais inovadores desse modelo de inteligência artificial.

Baseada na estrutura de modelos de difusão estáveis, a arquitetura utiliza um codificador de controle de condição para separar informações de movimento e identidade nos vídeos de entrada.

Os codificadores pré-treinados capturam sinais de controle que são injetados na imagem estática através de um unet de remoção de ruído.

Esse processo permite que a imagem estática ganhe vida, com movimentos faciais e expressões realistas, mantendo a precisão espacial e a consistência temporal.

Uma das principais vantagens dessa arquitetura é a sua capacidade de trazer precisão e realismo às animações, sem a necessidade de equipamentos caros e complexos.

Com o HunyuanPortrait, a Tencent oferece uma ferramenta poderosa que pode ser utilizada em diversas aplicações, desde a produção de filmes até a criação de conteúdo para mídias sociais.

Carlos Aono

Colunista no segmento Tecnologia e Inovações | CTOO do Grupo Ideal Trends, é especialista em tecnologia e inovação há mais de 9 anos. Sua missão como colunista do portal é traduzir tendências tecnológicas em insights estratégicos para negócios e para a sociedade.

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo