OpenAI lança GPT-5.3-Codex-Spark e redefine codificação assistida por IA
GPT-5.3-Codex-Spark é um modelo de codificação em tempo real desenvolvido pela parceria entre OpenAI e Cerebras, que utiliza o Wafer Scale Engine 3 para oferecer baixa latência e desempenho otimizado.
O Codex-Spark é a mais recente inovação da OpenAI, projetada para otimizar a codificação em tempo real. Com uma parceria com a Cerebras, este modelo oferece baixa latência e alta performance, permitindo que desenvolvedores experimentem e colaborem de forma eficiente. A introdução do Codex-Spark marca um avanço significativo na interação e execução de tarefas complexas.
Parceria com a Cerebras
A parceria entre a OpenAI e a Cerebras é um marco significativo no desenvolvimento do Codex-Spark. A colaboração visa otimizar o desempenho do modelo, utilizando o Wafer Scale Engine 3 da Cerebras, um acelerador de IA projetado para inferência de alta velocidade.
Este hardware especializado permite que o Codex-Spark opere com latência mínima, essencial para tarefas de codificação em tempo real.
O Wafer Scale Engine 3 é integrado ao stack de produção existente da OpenAI, assegurando que o Codex-Spark funcione de forma fluida com outros modelos.
Esta integração não só melhora a eficiência do Codex-Spark, mas também estabelece uma base sólida para o suporte a futuros modelos de IA.
Além disso, a parceria explora novas possibilidades de interação e casos de uso, como destacou Sean Lie, CTO da Cerebras, que vê a colaboração como uma oportunidade para descobrir padrões de interação inovadores e experiências de modelo fundamentalmente diferentes.
Essa sinergia entre OpenAI e Cerebras promete expandir os limites do que é possível na codificação assistida por IA.
Desempenho e latência
O desempenho do Codex-Spark é um dos seus principais destaques, especialmente quando comparado a modelos anteriores.
Projetado para oferecer inferência rápida, o Codex-Spark é otimizado para trabalho interativo, onde a latência é tão crucial quanto a inteligência.
Isso permite que os desenvolvedores colaborem em tempo real, interrompendo ou redirecionando o modelo conforme necessário, com respostas quase instantâneas.
Durante o treinamento do Codex-Spark, a OpenAI identificou que a velocidade do modelo era apenas parte da equação para colaboração em tempo real. Foram implementadas melhorias de latência em todo o pipeline de requisição-resposta, beneficiando todos os modelos.
A introdução de uma conexão WebSocket persistente e otimizações específicas dentro da API de Respostas reduziram a sobrecarga por cliente/servidor em 80%, a sobrecarga por token em 30% e o tempo para o primeiro token em 50%.
Essas melhorias garantem que o Codex-Spark permaneça responsivo durante iterações, tornando a experiência de codificação mais fluida e eficiente.
Com essas otimizações, o Codex-Spark não só atende às demandas de baixa latência, mas também estabelece um novo padrão para a interação em tempo real com modelos de IA.
Disponibilidade e detalhes
O Codex-Spark está sendo lançado como uma prévia de pesquisa para usuários do ChatGPT Pro nas versões mais recentes do aplicativo Codex, CLI e extensão do VS Code.
Esta versão inicial é destinada a desenvolvedores que desejam explorar as capacidades do modelo em tempo real, enquanto a OpenAI trabalha para aumentar a capacidade dos datacenters e aprimorar a experiência do usuário.
Durante a prévia de pesquisa, o uso do Codex-Spark é regido por um limite de taxa separado, que pode ser ajustado conforme a demanda. Isso garante que todos os usuários tenham acesso equilibrado e confiável.
Além disso, o Codex-Spark está disponível na API para um conjunto seleto de parceiros de design, permitindo que a OpenAI compreenda como os desenvolvedores desejam integrar o modelo em seus produtos.
O Codex-Spark é atualmente apenas de texto, com uma janela de contexto de 128k, e é o primeiro de uma família de modelos ultrarrápidos.
À medida que a OpenAI aprende mais com a comunidade de desenvolvedores sobre onde esses modelos rápidos brilham na codificação, mais capacidades serão introduzidas, incluindo modelos maiores, comprimentos de contexto mais longos e entrada multimodal.



