Gemini 2.5 Computer Use avança na interação com UIs

Carlos Aono 8 de outubro de 2025

0 114 2 minutos lidos

Gemini 2.5 Computer Use avança na interação com UIs

O Gemini 2.5 Computer Use é um modelo avançado que melhora a interação com interfaces de usuário, destacando-se em benchmarks de controle com alta precisão e baixa latência. Com segurança integrada, protege contra riscos de uso indevido e segurança de dados, sendo acessível via API para desenvolvedores de agentes interativos.

O Gemini 2.5 Computer Use foi lançado, trazendo avanços significativos na interação com interfaces de usuário. Desenvolvido com capacidades avançadas de compreensão visual e raciocínio, ele supera alternativas em benchmarks de controle web e mobile, com menor latência. Disponível via API do Gemini, ele promete revolucionar o desenvolvimento de agentes interativos.

Novo sistema lidera benchmarks de controle

O Gemini 2.5 Computer Use marca um avanço significativo na interação entre agentes de IA e interfaces de usuário.

Combinando compreensão visual e raciocínio lógico, o modelo permite que agentes executem ações de forma eficaz em elementos interativos, como formulários e menus suspensos.

Essa capacidade é viabilizada pela ferramenta computer_use presente na API do Gemini, que processa solicitações do usuário, capturas de tela e o histórico de ações para gerar comandos precisos, como cliques e digitação.

A tecnologia também é capaz de realizar tarefas mais complexas, incluindo o preenchimento de formulários e a manipulação de elementos protegidos por login.

Essa versatilidade representa um salto no desenvolvimento de agentes de propósito geral, que passam a executar operações digitais com autonomia e precisão.

Nos testes de desempenho, o Gemini 2.5 Computer Use apresentou resultados superiores aos de alternativas líderes de mercado.

Em avaliações conduzidas por plataformas especializadas como a Browserbase, o modelo demonstrou controle de navegador de alta qualidade aliado a baixa latência.

Ele liderou benchmarks como Online-Mind2Web, WebVoyager e AndroidWorld, atingindo precisão acima de 70% e tempo médio de execução de aproximadamente 225 segundos.

Com esses números, o Gemini 2.5 Computer Use se consolida como uma solução de ponta para desenvolvedores que buscam otimizar a interação com interfaces digitais, oferecendo rapidez, eficiência e confiabilidade em tarefas complexas.

Segurança e uso responsável do modelo

O modelo Gemini 2.5 Computer Use incorpora medidas de segurança robustas para garantir o uso responsável e seguro de suas capacidades.

Ao controlar computadores, os agentes de IA introduzem riscos únicos, como uso indevido intencional, comportamento inesperado do modelo e injeções de prompt no ambiente web.

Para mitigar esses riscos, o modelo foi treinado com recursos de segurança integrados, abordando questões críticas como a integridade do sistema e a segurança dos dados.

Além disso, desenvolvedores têm à disposição controles de segurança que evitam a execução automática de ações potencialmente arriscadas, como contornar CAPTCHAs ou controlar dispositivos médicos.

Esses controles incluem um serviço de segurança por etapa, que avalia cada ação proposta antes de sua execução, e instruções do sistema que exigem confirmação do usuário para ações de alto risco.

Tais salvaguardas são projetadas para reduzir riscos, e recomenda-se que os desenvolvedores testem exaustivamente seus sistemas antes de lançá-los.