Descubra o SmolVLA: modelo Visão-Linguagem-Ação eficiente e inovador
O SmolVLA é um modelo de Visão-Linguagem-Ação (VLA) open-source, otimizado para rodar em hardwares acessíveis. Com treinamento baseado em dados da comunidade Lerobot, ele se destaca pela eficiência e capacidade de generalização, facilitando aplicações em robótica em tempo real através de sua inferência assíncrona, promovendo inovação colaborativa e acessível na área.
O SmolVLA é um modelo de Visão-Linguagem-Ação (VLA) compacto e open-source, projetado para rodar em hardwares acessíveis. Treinado com dados da comunidade Lerobot, ele oferece uma solução eficiente para robótica, unificando percepção, compreensão de linguagem e predição de ação em uma única arquitetura.
Conheça o SmolVLA
O SmolVLA é um modelo de Visão-Linguagem-Ação (VLA) que se destaca por sua eficiência e acessibilidade.
Projetado para rodar em hardwares de consumo, como CPUs e GPUs comuns, até mesmo em um MacBook, o SmolVLA é um modelo compacto que não sacrifica o desempenho.
Ele é treinado com dados de robótica compartilhados pela comunidade, o que o torna uma ferramenta poderosa e acessível para pesquisadores e entusiastas da robótica.
Inspirado pelos paradigmas de treinamento de Modelos de Linguagem de Grande Escala (LLMs), o SmolVLA passa por uma fase de pré-treinamento em dados de manipulação geral, seguida de um pós-treinamento específico para tarefas.
Sua arquitetura combina Transformers com decodificadores de correspondência de fluxo, otimizados para velocidade e baixa latência.
Entre suas características de design, estão a interleaving de blocos de autoatenção e atenção cruzada, o uso de menos tokens visuais e a utilização de modelos de visão-linguagem pré-treinados menores.
Mesmo utilizando menos de 30 mil episódios de treinamento, uma ordem de magnitude menor que outros VLAs, o SmolVLA consegue igualar ou superar o desempenho de modelos muito maiores, tanto em simulação quanto no mundo real.
Para facilitar o uso da robótica em tempo real, o SmolVLA adota uma pilha de inferência assíncrona, separando a execução de ações da compreensão do que os robôs veem e ouvem, permitindo respostas mais rápidas em ambientes dinâmicos.
Especialista em ação: transformer de correspondência de fluxo
O especialista em ação do SmolVLA é um transformer compacto (cerca de 100M de parâmetros) que gera fragmentos de ação, ou seja, sequências de ações futuras do robô, condicionadas às saídas do VLM.
Ele é treinado usando um objetivo de correspondência de fluxo, que ensina o modelo a guiar amostras ruidosas de volta à verdade do terreno.
Em contraste, enquanto representações de ação discretas (por exemplo, via tokenização) são poderosas, elas frequentemente requerem decodificação autoregressiva, que é lenta e ineficiente no tempo de inferência.
A correspondência de fluxo permite a predição direta e não autoregressiva de ações contínuas, possibilitando controle em tempo real com alta precisão.
Mais intuitivamente, durante o treinamento, adicionamos ruído aleatório às sequências de ações reais do robô e pedimos ao modelo para prever o “vetor de correção” que os traz de volta à trajetória correta.
Isso forma um campo vetorial suave sobre o espaço de ação, ajudando o modelo a aprender políticas de controle precisas e estáveis.
Inferência assíncrona
Conclusão e impacto
O SmolVLA representa uma contribuição significativa para a construção de modelos de base para robótica que são abertos, eficientes e reproduzíveis.
Apesar de seu tamanho reduzido, ele iguala ou supera modelos maiores e proprietários em uma variedade de tarefas reais e simuladas.
Ao depender exclusivamente de datasets contribuídos pela comunidade e hardware acessível, o SmolVLA reduz a barreira de entrada para pesquisadores, educadores e entusiastas da robótica.
Além disso, o SmolVLA é open-source. Ao democratizar o acesso a tecnologias avançadas de robótica, ele promove inovação e colaboração em toda a comunidade, permitindo que mais pessoas participem da pesquisa e desenvolvimento de soluções robóticas.
O impacto do SmolVLA é evidente não só em seu desempenho, mas também em sua capacidade de inspirar e capacitar a comunidade a contribuir com dados, compartilhar conhecimentos e desenvolver novas aplicações.
Ao fomentar um ecossistema aberto e colaborativo, o SmolVLA ajuda a acelerar o progresso em direção a robôs mais inteligentes, acessíveis e versáteis.



