{"id":23343,"date":"2025-06-05T17:30:00","date_gmt":"2025-06-05T20:30:00","guid":{"rendered":"https:\/\/www.solucoesindustriais.com.br\/news\/?p=23343"},"modified":"2025-06-05T14:41:31","modified_gmt":"2025-06-05T17:41:31","slug":"smolvla","status":"publish","type":"post","link":"https:\/\/www.solucoesindustriais.com.br\/news\/tecnologia-e-inovacoes\/smolvla\/","title":{"rendered":"Descubra o SmolVLA: modelo Vis\u00e3o-Linguagem-A\u00e7\u00e3o eficiente e inovador"},"content":{"rendered":"<div class=\"tts_content_wrapper_1\" ><h3>O SmolVLA \u00e9 um modelo de Vis\u00e3o-Linguagem-A\u00e7\u00e3o (VLA) open-source, otimizado para rodar em hardwares acess\u00edveis. Com treinamento baseado em dados da comunidade Lerobot, ele se destaca pela efici\u00eancia e capacidade de generaliza\u00e7\u00e3o, facilitando aplica\u00e7\u00f5es em rob\u00f3tica em tempo real atrav\u00e9s de sua infer\u00eancia ass\u00edncrona, promovendo inova\u00e7\u00e3o colaborativa e acess\u00edvel na \u00e1rea.<\/h3>\n<p>O <strong>SmolVLA<\/strong> \u00e9 um modelo de Vis\u00e3o-Linguagem-A\u00e7\u00e3o (VLA) compacto e open-source, projetado para rodar em hardwares acess\u00edveis. Treinado com dados da comunidade Lerobot, ele oferece uma solu\u00e7\u00e3o eficiente para rob\u00f3tica, unificando percep\u00e7\u00e3o, compreens\u00e3o de linguagem e predi\u00e7\u00e3o de a\u00e7\u00e3o em uma \u00fanica arquitetura.<\/p>\n<h2>Conhe\u00e7a o SmolVLA<\/h2>\n<p>O <strong>SmolVLA<\/strong> \u00e9 um modelo de Vis\u00e3o-Linguagem-A\u00e7\u00e3o (VLA) que se destaca por sua efici\u00eancia e acessibilidade.<\/p>\n<p>Projetado para rodar em hardwares de consumo, como CPUs e GPUs comuns, at\u00e9 mesmo em um MacBook, o SmolVLA \u00e9 um modelo compacto que n\u00e3o sacrifica o desempenho.<\/p>\n<p>Ele \u00e9 treinado com dados de rob\u00f3tica compartilhados pela comunidade, o que o torna uma ferramenta poderosa e acess\u00edvel para pesquisadores e entusiastas da rob\u00f3tica.<\/p>\n<p>Inspirado pelos paradigmas de treinamento de Modelos de Linguagem de Grande Escala (LLMs), o SmolVLA passa por uma fase de pr\u00e9-treinamento em dados de manipula\u00e7\u00e3o geral, seguida de um p\u00f3s-treinamento espec\u00edfico para tarefas.<\/p>\n<p>Sua arquitetura combina Transformers com decodificadores de correspond\u00eancia de fluxo, otimizados para velocidade e baixa lat\u00eancia.<\/p>\n<p>Entre suas caracter\u00edsticas de design, est\u00e3o a interleaving de blocos de autoaten\u00e7\u00e3o e aten\u00e7\u00e3o cruzada, o uso de menos tokens visuais e a utiliza\u00e7\u00e3o de modelos de vis\u00e3o-linguagem pr\u00e9-treinados menores.<\/p>\n<p>Mesmo utilizando menos de 30 mil epis\u00f3dios de treinamento, uma ordem de magnitude menor que outros VLAs, o SmolVLA consegue igualar ou superar o desempenho de modelos muito maiores, tanto em simula\u00e7\u00e3o quanto no mundo real.<\/p>\n<p>Para facilitar o uso da rob\u00f3tica em tempo real, o SmolVLA adota uma pilha de infer\u00eancia ass\u00edncrona, separando a execu\u00e7\u00e3o de a\u00e7\u00f5es da compreens\u00e3o do que os rob\u00f4s veem e ouvem, permitindo respostas mais r\u00e1pidas em ambientes din\u00e2micos.<\/p>\n<h2>Especialista em a\u00e7\u00e3o: transformer de correspond\u00eancia de fluxo<\/h2>\n<p>O <strong>especialista em a\u00e7\u00e3o<\/strong> do SmolVLA \u00e9 um transformer compacto (cerca de 100M de par\u00e2metros) que gera fragmentos de a\u00e7\u00e3o, ou seja, sequ\u00eancias de a\u00e7\u00f5es futuras do rob\u00f4, condicionadas \u00e0s sa\u00eddas do VLM.<\/p>\n<p>Ele \u00e9 treinado usando um objetivo de correspond\u00eancia de fluxo, que ensina o modelo a guiar amostras ruidosas de volta \u00e0 verdade do terreno.<\/p>\n<p>Em contraste, enquanto representa\u00e7\u00f5es de a\u00e7\u00e3o discretas (por exemplo, via tokeniza\u00e7\u00e3o) s\u00e3o poderosas, elas frequentemente requerem decodifica\u00e7\u00e3o autoregressiva, que \u00e9 lenta e ineficiente no tempo de infer\u00eancia.<\/p>\n<p>A correspond\u00eancia de fluxo permite a predi\u00e7\u00e3o direta e n\u00e3o autoregressiva de a\u00e7\u00f5es cont\u00ednuas, possibilitando controle em tempo real com alta precis\u00e3o.<\/p>\n<p>Mais intuitivamente, durante o treinamento, adicionamos ru\u00eddo aleat\u00f3rio \u00e0s sequ\u00eancias de a\u00e7\u00f5es reais do rob\u00f4 e pedimos ao modelo para prever o &#8220;vetor de corre\u00e7\u00e3o&#8221; que os traz de volta \u00e0 trajet\u00f3ria correta.<\/p>\n<p>Isso forma um campo vetorial suave sobre o espa\u00e7o de a\u00e7\u00e3o, ajudando o modelo a aprender pol\u00edticas de controle precisas e est\u00e1veis.<\/p>\n<h2>Infer\u00eancia ass\u00edncrona<\/h2>\n<article class=\"text-token-text-primary w-full\" dir=\"auto\" data-testid=\"conversation-turn-306\" data-scroll-anchor=\"true\">\n<div class=\"text-base my-auto mx-auto py-5 [--thread-content-margin:--spacing(4)] @[37rem]:[--thread-content-margin:--spacing(6)] @[72rem]:[--thread-content-margin:--spacing(16)] px-(--thread-content-margin)\">\n<div class=\"[--thread-content-max-width:32rem] @[34rem]:[--thread-content-max-width:40rem] @[64rem]:[--thread-content-max-width:48rem] mx-auto flex max-w-(--thread-content-max-width) flex-1 text-base gap-4 md:gap-5 lg:gap-6 group\/turn-messages focus-visible:outline-hidden\" tabindex=\"-1\">\n<div class=\"group\/conversation-turn relative flex w-full min-w-0 flex-col agent-turn\">\n<div class=\"relative flex-col gap-1 md:gap-3\">\n<div class=\"flex max-w-full flex-col grow\">\n<div class=\"min-h-8 text-message relative flex w-full flex-col items-end gap-2 text-start break-words whitespace-normal [.text-message+&amp;]:mt-5\" dir=\"auto\" data-message-author-role=\"assistant\" data-message-id=\"0e9b9efb-05d1-4def-bbd3-f1fbd290b6ce\" data-message-model-slug=\"gpt-4o\">\n<div class=\"flex w-full flex-col gap-1 empty:hidden first:pt-[3px]\">\n<div class=\"markdown prose dark:prose-invert w-full break-words light\">\n<p data-start=\"0\" data-end=\"204\">A infer\u00eancia ass\u00edncrona do SmolVLA \u00e9 um recurso que separa a execu\u00e7\u00e3o de a\u00e7\u00f5es da predi\u00e7\u00e3o de chunks de a\u00e7\u00e3o. Isso elimina atrasos durante a execu\u00e7\u00e3o e permite maior adaptabilidade em ambientes din\u00e2micos.<\/p>\n<p data-start=\"206\" data-end=\"623\">Diferentemente da abordagem s\u00edncrona, em que o rob\u00f4 pausa ap\u00f3s cada chunk para calcular o pr\u00f3ximo, a infer\u00eancia ass\u00edncrona permite que o rob\u00f4 continue agindo enquanto j\u00e1 processa novas observa\u00e7\u00f5es.<\/p>\n<p data-start=\"206\" data-end=\"623\">Isso acontece porque a \u00faltima observa\u00e7\u00e3o \u00e9 enviada para um servidor de pol\u00edticas enquanto a a\u00e7\u00e3o atual ainda est\u00e1 em execu\u00e7\u00e3o. O servidor pode estar hospedado em uma GPU e calcula antecipadamente o pr\u00f3ximo conjunto de a\u00e7\u00f5es.<\/p>\n<p data-start=\"625\" data-end=\"1127\">Esse sistema funciona com base em tr\u00eas mecanismos principais. O primeiro \u00e9 o disparo antecipado. Quando a fila de a\u00e7\u00f5es fica abaixo de um limite, como 70 por cento, o sistema envia uma nova observa\u00e7\u00e3o para gerar o pr\u00f3ximo chunk.<\/p>\n<p data-start=\"625\" data-end=\"1127\">O segundo \u00e9 o uso de threads desacoplados. Isso mant\u00e9m o loop de controle em execu\u00e7\u00e3o enquanto a infer\u00eancia acontece em paralelo, sem bloqueios.<\/p>\n<p data-start=\"625\" data-end=\"1127\">O terceiro \u00e9 a fus\u00e3o de chunks. A\u00e7\u00f5es de chunks consecutivos s\u00e3o unidas com uma regra simples, o que evita movimentos inst\u00e1veis.<\/p>\n<p data-start=\"1129\" data-end=\"1349\" data-is-last-node=\"\" data-is-only-node=\"\">Essa abordagem permite que o rob\u00f4 se mantenha responsivo. A execu\u00e7\u00e3o ocorre enquanto a previs\u00e3o do pr\u00f3ximo passo j\u00e1 est\u00e1 em andamento. Isso melhora o desempenho em tempo real sem a necessidade de modificar o modelo base.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/article>\n<h2>Conclus\u00e3o e impacto<\/h2>\n<p>O <strong>SmolVLA<\/strong> representa uma contribui\u00e7\u00e3o significativa para a constru\u00e7\u00e3o de modelos de base para rob\u00f3tica que s\u00e3o abertos, eficientes e reproduz\u00edveis.<\/p>\n<p>Apesar de seu tamanho reduzido, ele iguala ou supera modelos maiores e propriet\u00e1rios em uma variedade de tarefas reais e simuladas.<\/p>\n<p>Ao depender exclusivamente de datasets contribu\u00eddos pela comunidade e hardware acess\u00edvel, o SmolVLA reduz a barreira de entrada para pesquisadores, educadores e entusiastas da rob\u00f3tica.<\/p>\n<p>Al\u00e9m disso, o SmolVLA \u00e9 open-source. Ao democratizar o acesso a tecnologias avan\u00e7adas de rob\u00f3tica, ele promove inova\u00e7\u00e3o e colabora\u00e7\u00e3o em toda a comunidade, permitindo que mais pessoas participem da pesquisa e desenvolvimento de solu\u00e7\u00f5es rob\u00f3ticas.<\/p>\n<p>O impacto do SmolVLA \u00e9 evidente n\u00e3o s\u00f3 em seu desempenho, mas tamb\u00e9m em sua capacidade de inspirar e capacitar a comunidade a contribuir com dados, compartilhar conhecimentos e desenvolver novas aplica\u00e7\u00f5es.<\/p>\n<p>Ao fomentar um ecossistema aberto e colaborativo, o SmolVLA ajuda a acelerar o progresso em dire\u00e7\u00e3o a rob\u00f4s mais inteligentes, acess\u00edveis e vers\u00e1teis.<\/p>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>SmolVLA \u00e9 um modelo VLA compacto e open-source treinado com dados da comunidade Lerobot.<\/p>\n","protected":false},"author":6,"featured_media":23342,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[20],"tags":[],"class_list":["post-23343","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia-e-inovacoes"],"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/23343","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/comments?post=23343"}],"version-history":[{"count":1,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/23343\/revisions"}],"predecessor-version":[{"id":23366,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/posts\/23343\/revisions\/23366"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/media\/23342"}],"wp:attachment":[{"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/media?parent=23343"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/categories?post=23343"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.solucoesindustriais.com.br\/news\/wp-json\/wp\/v2\/tags?post=23343"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}