Descubra o SmolVLA: modelo Visão-Linguagem-Ação eficiente e inovador

Carlos Aono 5 de junho de 2025

0 140 3 minutos lidos

Descubra o SmolVLA: Modelo VLA Eficiente e Inovador

O SmolVLA é um modelo de Visão-Linguagem-Ação (VLA) open-source, otimizado para rodar em hardwares acessíveis. Com treinamento baseado em dados da comunidade Lerobot, ele se destaca pela eficiência e capacidade de generalização, facilitando aplicações em robótica em tempo real através de sua inferência assíncrona, promovendo inovação colaborativa e acessível na área.

O SmolVLA é um modelo de Visão-Linguagem-Ação (VLA) compacto e open-source, projetado para rodar em hardwares acessíveis. Treinado com dados da comunidade Lerobot, ele oferece uma solução eficiente para robótica, unificando percepção, compreensão de linguagem e predição de ação em uma única arquitetura.

Conheça o SmolVLA

O SmolVLA é um modelo de Visão-Linguagem-Ação (VLA) que se destaca por sua eficiência e acessibilidade.

Projetado para rodar em hardwares de consumo, como CPUs e GPUs comuns, até mesmo em um MacBook, o SmolVLA é um modelo compacto que não sacrifica o desempenho.

Ele é treinado com dados de robótica compartilhados pela comunidade, o que o torna uma ferramenta poderosa e acessível para pesquisadores e entusiastas da robótica.

Inspirado pelos paradigmas de treinamento de Modelos de Linguagem de Grande Escala (LLMs), o SmolVLA passa por uma fase de pré-treinamento em dados de manipulação geral, seguida de um pós-treinamento específico para tarefas.

Sua arquitetura combina Transformers com decodificadores de correspondência de fluxo, otimizados para velocidade e baixa latência.

Entre suas características de design, estão a interleaving de blocos de autoatenção e atenção cruzada, o uso de menos tokens visuais e a utilização de modelos de visão-linguagem pré-treinados menores.

Mesmo utilizando menos de 30 mil episódios de treinamento, uma ordem de magnitude menor que outros VLAs, o SmolVLA consegue igualar ou superar o desempenho de modelos muito maiores, tanto em simulação quanto no mundo real.

Para facilitar o uso da robótica em tempo real, o SmolVLA adota uma pilha de inferência assíncrona, separando a execução de ações da compreensão do que os robôs veem e ouvem, permitindo respostas mais rápidas em ambientes dinâmicos.

Especialista em ação: transformer de correspondência de fluxo

O especialista em ação do SmolVLA é um transformer compacto (cerca de 100M de parâmetros) que gera fragmentos de ação, ou seja, sequências de ações futuras do robô, condicionadas às saídas do VLM.

Ele é treinado usando um objetivo de correspondência de fluxo, que ensina o modelo a guiar amostras ruidosas de volta à verdade do terreno.

Em contraste, enquanto representações de ação discretas (por exemplo, via tokenização) são poderosas, elas frequentemente requerem decodificação autoregressiva, que é lenta e ineficiente no tempo de inferência.

A correspondência de fluxo permite a predição direta e não autoregressiva de ações contínuas, possibilitando controle em tempo real com alta precisão.

Mais intuitivamente, durante o treinamento, adicionamos ruído aleatório às sequências de ações reais do robô e pedimos ao modelo para prever o “vetor de correção” que os traz de volta à trajetória correta.

Isso forma um campo vetorial suave sobre o espaço de ação, ajudando o modelo a aprender políticas de controle precisas e estáveis.

Inferência assíncrona

A inferência assíncrona do SmolVLA é um recurso que separa a execução de ações da predição de chunks de ação. Isso elimina atrasos durante a execução e permite maior adaptabilidade em ambientes dinâmicos.

Diferentemente da abordagem síncrona, em que o robô pausa após cada chunk para calcular o próximo, a inferência assíncrona permite que o robô continue agindo enquanto já processa novas observações.

Isso acontece porque a última observação é enviada para um servidor de políticas enquanto a ação atual ainda está em execução. O servidor pode estar hospedado em uma GPU e calcula antecipadamente o próximo conjunto de ações.

Esse sistema funciona com base em três mecanismos principais. O primeiro é o disparo antecipado. Quando a fila de ações fica abaixo de um limite, como 70 por cento, o sistema envia uma nova observação para gerar o próximo chunk.

O segundo é o uso de threads desacoplados. Isso mantém o loop de controle em execução enquanto a inferência acontece em paralelo, sem bloqueios.

O terceiro é a fusão de chunks. Ações de chunks consecutivos são unidas com uma regra simples, o que evita movimentos instáveis.

Essa abordagem permite que o robô se mantenha responsivo. A execução ocorre enquanto a previsão do próximo passo já está em andamento. Isso melhora o desempenho em tempo real sem a necessidade de modificar o modelo base.

Conclusão e impacto

O SmolVLA representa uma contribuição significativa para a construção de modelos de base para robótica que são abertos, eficientes e reproduzíveis.

Apesar de seu tamanho reduzido, ele iguala ou supera modelos maiores e proprietários em uma variedade de tarefas reais e simuladas.

Ao depender exclusivamente de datasets contribuídos pela comunidade e hardware acessível, o SmolVLA reduz a barreira de entrada para pesquisadores, educadores e entusiastas da robótica.

Além disso, o SmolVLA é open-source. Ao democratizar o acesso a tecnologias avançadas de robótica, ele promove inovação e colaboração em toda a comunidade, permitindo que mais pessoas participem da pesquisa e desenvolvimento de soluções robóticas.

O impacto do SmolVLA é evidente não só em seu desempenho, mas também em sua capacidade de inspirar e capacitar a comunidade a contribuir com dados, compartilhar conhecimentos e desenvolver novas aplicações.

Ao fomentar um ecossistema aberto e colaborativo, o SmolVLA ajuda a acelerar o progresso em direção a robôs mais inteligentes, acessíveis e versáteis.