O que a OpenAI anunciou de facto

Por volta de 1 de julho de 2026, a OpenAI disse que vai correr o seu novo modelo de referência, o GPT-5.6 Sol, em hardware de bolacha da Cerebras até 750 tokens por segundo, a partir de julho. O acesso permanece de início limitado a clientes selecionados e alargar-se-á à medida que a capacidade cresce. Isto não é uma demonstração de investigação. É um compromisso de produção com uma peça concreta de silício.

Por trás está um Master Relationship Agreement vinculativo de mais de 20 mil milhões de USD, que a OpenAI e a Cerebras divulgaram. Cobre 750 megawatts de capacidade de inferência de bolacha de 2026 a 2028, com previsões de expansão até 2 gigawatts até 2030. O GPT-5.6 chega em três tamanhos, com preço por milhão de tokens: Sol a 5 USD de entrada e 30 USD de saída, ou seja, cerca de EUR 4,60 de entrada e EUR 27,60 de saída; Terra a 2,50 e 15; e Luna a 1 e 6.

O número que importa a um proprietário não é o nome do modelo. São 750 tokens por segundo, entregues por um fornecedor com nome, sob um contrato com nome, por um prazo com nome.

A velocidade, e não só a inteligência, é agora o produto

Um modelo de primeira linha num cluster de GPU tradicional transmite a cerca de 40 a 120 tokens por segundo. A Cerebras divulgou que a sua abordagem de bolacha corre os mesmos pesos do modelo até cerca de 15 vezes mais depressa do que os sistemas baseados em GPU, ao colocar cômputo, memória e largura de banda numa única bolacha em vez de os repartir por muitos chips.

Essa diferença decide que produtos são construíveis. A 40 a 120 tokens por segundo, um agente de voz em tempo real engasga, um revisor de código ao vivo fica atrás do programador, e a análise interativa de documentos sabe a espera. A 750 tokens por segundo, essas cargas ligadas à latência tornam-se viáveis. A atualização não é uma resposta mais inteligente, mas uma resposta rápida o bastante para viver dentro de um fluxo de trabalho ativo.

A velocidade mora num único endereço

Aqui está o problema de concentração. Esses 750 tokens por segundo não são uma propriedade do modelo em abstrato. São uma propriedade do silício de bolacha de um único fornecedor, a correr um modelo que, por sua vez, está sob restrições de acesso do governo dos EUA, em pré-visualização limitada a cerca de 20 empresas aprovadas. Altere qualquer uma dessas três coisas e a velocidade em torno da qual desenhou desaparece.

Para uma empresa portuguesa, isto empilha três dependências que antes eram separadas. O modelo é americano e controlado à exportação. O chip é a bolacha proprietária de um único fornecedor americano. O teto de débito é fixado por um contrato de que não é parte. A inferência soberana era outrora uma questão sobre em que chips você corre. Agora é também uma questão sobre de quem são os tokens por segundo que aluga, e hoje a resposta atravessa uma única cadeia de abastecimento norte-americana.

Torne os tokens por segundo uma dependência com preço

Trate a velocidade de inferência como já trata qualquer insumo de fonte única: como uma dependência com preço e contestável, não como uma atualização gratuita. A primeira tarefa é medir. Conheça o teto de tokens por segundo que as suas funções ligadas à latência realmente precisam, e o teto que o seu fornecedor atual lhe dá. Se uma função só opera acima de certa velocidade, essa velocidade é já parte da sua especificação de produto.

A segunda tarefa é manter uma segunda via. Identifique pelo menos uma alternativa capaz de sustentar a mesma carga, mesmo a menor velocidade, para que uma cláusula contratual, uma regra de exportação ou um limite de capacidade num fornecedor não desliguem em silêncio um produto vivo. Para os proprietários europeus, é aqui que a conversa sobre inferência soberana ganha o seu lugar: não como política, mas como planeamento de continuidade para um teto de débito que você não controla.

Os vencedores da próxima fase não terão apenas o modelo mais inteligente. Conhecerão o seu número de tokens por segundo, saberão quem o controla e já terão posto preço no custo de o perder.