Infraestruturas

A OpenAI compra a sua velocidade a um único fabricante

A OpenAI vai correr o GPT-5.6 Sol em hardware de bolacha da Cerebras até 750 tokens por segundo. Porque o débito de inferência, e não a qualidade do modelo, é agora a variável disputada.

InfraestruturasPor Servola Tech Desk2026-07-044 min de leitura4 visualizações

Assistido por IA, editado por pessoas. Normas editoriais

A OpenAI compra a sua velocidade a um único fabricante

O que a OpenAI anunciou de facto

Por volta de 1 de julho de 2026, a OpenAI disse que vai correr o seu novo modelo de referência, o GPT-5.6 Sol, em hardware de bolacha da Cerebras até 750 tokens por segundo, a partir de julho. O acesso permanece de início limitado a clientes selecionados e alargar-se-á à medida que a capacidade cresce. Isto não é uma demonstração de investigação. É um compromisso de produção com uma peça concreta de silício.

Por trás está um Master Relationship Agreement vinculativo de mais de 20 mil milhões de USD, que a OpenAI e a Cerebras divulgaram. Cobre 750 megawatts de capacidade de inferência de bolacha de 2026 a 2028, com previsões de expansão até 2 gigawatts até 2030. O GPT-5.6 chega em três tamanhos, com preço por milhão de tokens: Sol a 5 USD de entrada e 30 USD de saída, ou seja, cerca de EUR 4,60 de entrada e EUR 27,60 de saída; Terra a 2,50 e 15; e Luna a 1 e 6.

O número que importa a um proprietário não é o nome do modelo. São 750 tokens por segundo, entregues por um fornecedor com nome, sob um contrato com nome, por um prazo com nome.

A velocidade, e não só a inteligência, é agora o produto

Um modelo de primeira linha num cluster de GPU tradicional transmite a cerca de 40 a 120 tokens por segundo. A Cerebras divulgou que a sua abordagem de bolacha corre os mesmos pesos do modelo até cerca de 15 vezes mais depressa do que os sistemas baseados em GPU, ao colocar cômputo, memória e largura de banda numa única bolacha em vez de os repartir por muitos chips.

Essa diferença decide que produtos são construíveis. A 40 a 120 tokens por segundo, um agente de voz em tempo real engasga, um revisor de código ao vivo fica atrás do programador, e a análise interativa de documentos sabe a espera. A 750 tokens por segundo, essas cargas ligadas à latência tornam-se viáveis. A atualização não é uma resposta mais inteligente, mas uma resposta rápida o bastante para viver dentro de um fluxo de trabalho ativo.

A velocidade mora num único endereço

Aqui está o problema de concentração. Esses 750 tokens por segundo não são uma propriedade do modelo em abstrato. São uma propriedade do silício de bolacha de um único fornecedor, a correr um modelo que, por sua vez, está sob restrições de acesso do governo dos EUA, em pré-visualização limitada a cerca de 20 empresas aprovadas. Altere qualquer uma dessas três coisas e a velocidade em torno da qual desenhou desaparece.

Para uma empresa portuguesa, isto empilha três dependências que antes eram separadas. O modelo é americano e controlado à exportação. O chip é a bolacha proprietária de um único fornecedor americano. O teto de débito é fixado por um contrato de que não é parte. A inferência soberana era outrora uma questão sobre em que chips você corre. Agora é também uma questão sobre de quem são os tokens por segundo que aluga, e hoje a resposta atravessa uma única cadeia de abastecimento norte-americana.

Torne os tokens por segundo uma dependência com preço

Trate a velocidade de inferência como já trata qualquer insumo de fonte única: como uma dependência com preço e contestável, não como uma atualização gratuita. A primeira tarefa é medir. Conheça o teto de tokens por segundo que as suas funções ligadas à latência realmente precisam, e o teto que o seu fornecedor atual lhe dá. Se uma função só opera acima de certa velocidade, essa velocidade é já parte da sua especificação de produto.

A segunda tarefa é manter uma segunda via. Identifique pelo menos uma alternativa capaz de sustentar a mesma carga, mesmo a menor velocidade, para que uma cláusula contratual, uma regra de exportação ou um limite de capacidade num fornecedor não desliguem em silêncio um produto vivo. Para os proprietários europeus, é aqui que a conversa sobre inferência soberana ganha o seu lugar: não como política, mas como planeamento de continuidade para um teto de débito que você não controla.

Os vencedores da próxima fase não terão apenas o modelo mais inteligente. Conhecerão o seu número de tokens por segundo, saberão quem o controla e já terão posto preço no custo de o perder.

Leia a seguir: A energia e o novo limite da IA · A Sua Dependência da Cloud É Agora Um Risco Regulado. A Maioria das Empresas Nem Consegue Ver a Sua.

Perguntas frequentes

Porque é que 750 tokens por segundo importam mais do que um modelo mais inteligente?

Porque mudam o que você pode construir. Muitos produtos agênticos, como os agentes de voz em tempo real e a revisão de código ao vivo, são limitados pela latência, não pela inteligência. Um modelo a 40 a 120 tokens por segundo não os sustenta com fluidez, 750 tokens por segundo sustentam. A velocidade passa a ser parte da especificação do produto, não um detalhe de fundo.

Qual é o risco de concentração para um proprietário europeu?

A velocidade depende de três coisas americanas ao mesmo tempo: um modelo controlado à exportação, a bolacha proprietária de um único fornecedor e um contrato de que você não é parte. Se uma delas mudar, o débito em torno do qual construiu pode desaparecer. É uma única cadeia de abastecimento a carregar um peso que antes estava repartido.

O que deve um proprietário fazer agora?

Meça o teto de tokens por segundo que as suas funções precisam e o que o seu fornecedor lhe dá, e mantenha pelo menos uma segunda via capaz de sustentar a mesma carga mesmo a menor velocidade. Trate o débito de inferência como uma dependência com preço que planeia, não como uma atualização gratuita que assume.

A fronteira já não passa apenas pelo modelo mais inteligente. Passa por quem possui a velocidade, e por saber se você tem um modo de continuar a trabalhar quando essa velocidade não é sua para comandar.

Infrastructure Inference Cerebras OpenAI Wafer-Scale Compute

Mais do Servola Journal

Infraestruturas

A energia e o novo limite da IA

A restrição decisiva da IA na Europa já não são os chips nem os modelos. E a eletricidade e uma fila de ligação a rede medida em anos. O que isto significa.

3 min de leitura

Infraestruturas

A Sua Dependência da Cloud É Agora Um Risco Regulado. A Maioria das Empresas Nem Consegue Ver a Sua.

O Pacote Europeu de Soberania Tecnológica de 2026 e o Cloud and AI Development Act transformam a dependência de alguns hyperscalers num risco regulado. Combinada com o DORA e o NIS2, a concentração é agora um passivo de resiliência e de conformidade. Eis como mapeá-la.

2 min de leitura

Infraestruturas

Porque Está a IA a Aumentar o Preço de Hardware que Nunca Comprou?

A despesa de capital da Microsoft em 2026 está a aumentar, em parte porque a procura por IA fez subir os preços de memória e armazenamento para todos. A IA é agora uma força de mercado que remodela os custos de hardware até para empresas que nunca a adotam, e isso muda a forma como deve orçamentar.

2 min de leitura

Servola

A Servola ajuda os proprietários a pôr preço e a diversificar a fonte das suas dependências de inferência antes que uma cadeia de abastecimento lhes fixe o teto.

Solicitar uma apresentação privada Sobre a Servola →

A Servola é aconselhamento tecnológico para um pequeno número de famílias e family offices. Quando uma decisão não pode ser delegada, sentamo-nos do seu lado da mesa.

Servola Systems GmbH · Ludwigshafen, Alemanha · [email protected]

← Todos os artigos