A API Realtime da OpenAI agora oferece suporte a servidores MCP remotos, chamadas SIP e entradas de imagem, melhorando a experiência de agentes de voz com o modelo gpt-realtime, que traz qualidade de áudio aprimorada, inteligência e personalização, além de novas vozes naturais.
A API Realtime da OpenAI está agora disponível com novos recursos que permitem a criação de agentes de voz mais confiáveis e prontos para produção. Com suporte a servidores MCP remotos e chamadas telefônicas via SIP, os agentes de voz se tornam mais capazes, acessando ferramentas e contextos adicionais.
Novas funcionalidades da API Realtime
A API Realtime da OpenAI foi aprimorada para oferecer suporte a novas funcionalidades que ampliam suas capacidades.
Uma das principais adições é o suporte a servidores MCP remotos, que permite que os desenvolvedores integrem ferramentas externas sem a necessidade de configurações manuais complexas.
Isso facilita a expansão das capacidades dos agentes de voz, tornando-os mais versáteis e adaptáveis às necessidades específicas de cada projeto.
Além disso, a API agora suporta chamadas telefônicas através do Session Initiation Protocol (SIP), integrando-se diretamente com redes telefônicas públicas e sistemas PBX.
Essa funcionalidade permite que os agentes de voz realizem e recebam chamadas, ampliando significativamente suas aplicações em cenários de suporte ao cliente e atendimento automatizado.
Outra inovação importante é a inclusão de entradas de imagem, permitindo que os desenvolvedores enviem imagens, fotos e capturas de tela junto com áudio ou texto em uma sessão da API Realtime.
Isso possibilita que o modelo baseie a conversa no que o usuário está vendo, enriquecendo a interação e permitindo perguntas como “o que você vê nesta imagem?” ou “leia o texto nesta captura de tela”.
Por fim, a API Realtime também introduziu melhorias na qualidade do áudio, com novas vozes mais naturais e expressivas, como Marin e Cedar, e atualizações nas vozes existentes.
Essas melhorias garantem uma experiência de usuário mais envolvente e fluida, essencial para aplicações em ambientes reais.
Gpt-realtime da OpenAI revoluciona agentes de voz
O gpt-realtime, modelo de fala para fala mais avançado da OpenAI, foi desenvolvido em colaboração com clientes e projetado para aplicações do mundo real, como suporte ao cliente, assistência pessoal e educação.
Com melhorias significativas em inteligência, execução de instruções e qualidade de áudio, o sistema é capaz de interpretar prompts com precisão, ler scripts de forma fiel, repetir sequências alfanuméricas e até alternar idiomas em uma mesma frase.
A OpenAI também aprimorou a naturalidade da fala, garantindo entonação, emoção e ritmo próximos aos de um ser humano, o que amplia a fluidez das interações e favorece experiências mais envolventes.
Além das vozes já conhecidas, foram adicionadas Marin e Cedar, disponíveis exclusivamente na API Realtime, trazendo maior expressividade e realismo às conversas.
Essas inovações tornam o gpt-realtime uma ferramenta de destaque para desenvolvedores que buscam criar agentes de voz mais eficientes e personalizados.
Capacidades adicionais da API
A API Realtime da OpenAI foi enriquecida com várias capacidades adicionais para facilitar sua integração e torná-la mais flexível para uso em produção.
Uma das principais adições é o suporte ao Session Initiation Protocol (SIP), permitindo que os desenvolvedores conectem seus aplicativos a redes telefônicas públicas, sistemas PBX e outros pontos finais SIP.
Outra capacidade importante é a introdução de prompts reutilizáveis. Agora, desenvolvedores podem salvar e reutilizar prompts, que consistem em mensagens de desenvolvedores, ferramentas, variáveis e exemplos de mensagens de usuários/assistentes, em sessões da API Realtime.
Essa funcionalidade simplifica o processo de desenvolvimento, permitindo que configurações eficazes sejam aplicadas em múltiplas interações.
Além disso, a API Realtime incorpora várias camadas de salvaguardas e mitigações para ajudar a prevenir usos indevidos. Isso inclui classificadores ativos que podem interromper conversas que violam diretrizes de conteúdo nocivo.
Os desenvolvedores também têm a flexibilidade de adicionar suas próprias barreiras de segurança usando o Agents SDK.
Essas capacidades adicionais tornam a API Realtime uma ferramenta robusta e segura para a criação de agentes de voz que podem operar de maneira eficaz e ética em uma variedade de contextos de produção.
