API Realtime da OpenAI recebe novos recursos para agentes de voz

Carlos Aono 29 de agosto de 2025

0 129 3 minutos lidos

API Realtime da OpenAI: Inovações para Agentes de Voz

A API Realtime da OpenAI agora oferece suporte a servidores MCP remotos, chamadas SIP e entradas de imagem, melhorando a experiência de agentes de voz com o modelo gpt-realtime, que traz qualidade de áudio aprimorada, inteligência e personalização, além de novas vozes naturais.

A API Realtime da OpenAI está agora disponível com novos recursos que permitem a criação de agentes de voz mais confiáveis e prontos para produção. Com suporte a servidores MCP remotos e chamadas telefônicas via SIP, os agentes de voz se tornam mais capazes, acessando ferramentas e contextos adicionais.

Novas funcionalidades da API Realtime

A API Realtime da OpenAI foi aprimorada para oferecer suporte a novas funcionalidades que ampliam suas capacidades.

Uma das principais adições é o suporte a servidores MCP remotos, que permite que os desenvolvedores integrem ferramentas externas sem a necessidade de configurações manuais complexas.

Isso facilita a expansão das capacidades dos agentes de voz, tornando-os mais versáteis e adaptáveis às necessidades específicas de cada projeto.

Além disso, a API agora suporta chamadas telefônicas através do Session Initiation Protocol (SIP), integrando-se diretamente com redes telefônicas públicas e sistemas PBX.

Essa funcionalidade permite que os agentes de voz realizem e recebam chamadas, ampliando significativamente suas aplicações em cenários de suporte ao cliente e atendimento automatizado.

Outra inovação importante é a inclusão de entradas de imagem, permitindo que os desenvolvedores enviem imagens, fotos e capturas de tela junto com áudio ou texto em uma sessão da API Realtime.

Isso possibilita que o modelo baseie a conversa no que o usuário está vendo, enriquecendo a interação e permitindo perguntas como “o que você vê nesta imagem?” ou “leia o texto nesta captura de tela”.

Por fim, a API Realtime também introduziu melhorias na qualidade do áudio, com novas vozes mais naturais e expressivas, como Marin e Cedar, e atualizações nas vozes existentes.

Essas melhorias garantem uma experiência de usuário mais envolvente e fluida, essencial para aplicações em ambientes reais.

Gpt-realtime da OpenAI revoluciona agentes de voz

O gpt-realtime, modelo de fala para fala mais avançado da OpenAI, foi desenvolvido em colaboração com clientes e projetado para aplicações do mundo real, como suporte ao cliente, assistência pessoal e educação.

Com melhorias significativas em inteligência, execução de instruções e qualidade de áudio, o sistema é capaz de interpretar prompts com precisão, ler scripts de forma fiel, repetir sequências alfanuméricas e até alternar idiomas em uma mesma frase.

A OpenAI também aprimorou a naturalidade da fala, garantindo entonação, emoção e ritmo próximos aos de um ser humano, o que amplia a fluidez das interações e favorece experiências mais envolventes.

Além das vozes já conhecidas, foram adicionadas Marin e Cedar, disponíveis exclusivamente na API Realtime, trazendo maior expressividade e realismo às conversas.

Essas inovações tornam o gpt-realtime uma ferramenta de destaque para desenvolvedores que buscam criar agentes de voz mais eficientes e personalizados.

Capacidades adicionais da API

A API Realtime da OpenAI foi enriquecida com várias capacidades adicionais para facilitar sua integração e torná-la mais flexível para uso em produção.

Uma das principais adições é o suporte ao Session Initiation Protocol (SIP), permitindo que os desenvolvedores conectem seus aplicativos a redes telefônicas públicas, sistemas PBX e outros pontos finais SIP.

Outra capacidade importante é a introdução de prompts reutilizáveis. Agora, desenvolvedores podem salvar e reutilizar prompts, que consistem em mensagens de desenvolvedores, ferramentas, variáveis e exemplos de mensagens de usuários/assistentes, em sessões da API Realtime.

Essa funcionalidade simplifica o processo de desenvolvimento, permitindo que configurações eficazes sejam aplicadas em múltiplas interações.

Além disso, a API Realtime incorpora várias camadas de salvaguardas e mitigações para ajudar a prevenir usos indevidos. Isso inclui classificadores ativos que podem interromper conversas que violam diretrizes de conteúdo nocivo.

Os desenvolvedores também têm a flexibilidade de adicionar suas próprias barreiras de segurança usando o Agents SDK.

Essas capacidades adicionais tornam a API Realtime uma ferramenta robusta e segura para a criação de agentes de voz que podem operar de maneira eficaz e ética em uma variedade de contextos de produção.