AI Economy

Os tokens de IA já têm hora de ponta

A DeepSeek lança o V4 em meados de julho com a primeira tarifa horária numa API de IA: preços a dobrar no horário laboral chinês. Porque os tokens se tornam um fornecimento e a Europa ganha vantagem horária.

AI EconomyPor Servola Tech Desk2026-07-043 min de leitura

Assistido por IA, editado por pessoas. Editorial standards

Pontos principais

A 30 de junho de 2026 a DeepSeek anunciou o lançamento oficial do V4 para meados de julho, introduzindo a primeira tarifa horária numa grande API de IA: o uso nas janelas de ponta diárias das 9:00 às 12:00 e das 14:00 às 18:00 é faturado ao dobro da tarifa de vazio.
O V4 chega com janela de contexto de 1 milhão de tokens de série em toda a gama, liderada pelo V4-Pro, um modelo mixture-of-experts de 1,6 biliões de parâmetros com 49 mil milhões ativos, ao lado do leve V4-Flash; os antigos endpoints deepseek-chat e deepseek-reasoner são reformados depois de 24 de julho.
A tarifa por horas importa a economia da rede elétrica para a IA: é a admissão de que a capacidade de inferência é finita e de que a procura, não apenas o consumo, fixa agora o preço.
Os compradores europeus ganham uma vantagem horária literal: as janelas de ponta comunicadas correspondem à madrugada e à manhã na Europa, deixando toda a tarde e a noite europeias em tarifa de vazio.

O que a DeepSeek anunciou

A 30 de junho de 2026 a DeepSeek comunicou que a versão oficial do V4 chega em meados de julho, graduando a pré-visualização disponível desde 24 de abril, segundo o TechNode. A novidade principal não é um benchmark. É um mecanismo de preço: pela primeira vez numa grande API de IA, os tokens custarão valores diferentes consoante a hora, com tarifas a duplicar nas janelas diárias das 9:00 às 12:00 e das 14:00 às 18:00, o horário laboral chinês, e a tarifa de vazio inalterada.

Os modelos em si têm peso: a janela de contexto de 1 milhão de tokens torna-se padrão em toda a gama, o V4-Pro é um desenho mixture-of-experts de 1,6 biliões de parâmetros com 49 mil milhões ativos, o V4-Flash um modelo de 284 mil milhões com 13 mil milhões ativos. A documentação da DeepSeek acrescenta um prazo duro: os endpoints antigos deepseek-chat e deepseek-reasoner ficam inacessíveis depois de 24 de julho, pelo que as integrações existentes têm de migrar, gostem ou não do novo contador.

Porque é que um laboratório cobra como uma elétrica

A tarifa por horas existe num só tipo de mercado: capacidade fixa, procura oscilante. As redes elétricas inventaram-na porque armazenar era caro e a ponta de procura dimensionava todo o sistema. Que um laboratório de IA recorra agora à mesma ferramenta é uma admissão que vale mais do que qualquer apresentação: a capacidade de inferência é finita, as GPU não fazem fila educadamente, e o token marginal das 10:30 de uma terça-feira custa ao operador mais do que o mesmo token à meia-noite.

Também quebra uma suposição confortável. O setor passou dois anos a dizer que a inteligência fica mais barata a cada trimestre. Por token, continua verdade. Mas o novo mecanismo significa que o preço do mesmo pedido já não é uma constante, e quem orçamentou com custos unitários planos possui agora um pequeno problema de trading de energia. Assim que um fornecedor demonstra que os clientes aceitam preços de ponta, todos os outros têm incentivo para seguir.

A vantagem horária europeia

Para os compradores europeus, a geografia das janelas de ponta é invulgarmente simpática. As horas de ponta comunicadas caem entre as 2:00 e as 5:00 e entre as 7:00 e as 11:00 no horário de verão de Lisboa. A partir das 11 da manhã em Portugal, toda a tarde e a noite de trabalho correm em tarifa de vazio. Uma empresa europeia que use a DeepSeek paga a tarifa reduzida durante a maior parte do seu dia útil, enquanto um concorrente chinês paga o dobro durante o seu.

O passo prático é arquitetónico, não contratual: separar as chamadas críticas em latência das adiáveis. Processamentos noturnos em lote, embeddings, reindexação, avaliações e relatórios podem ser agendados para as janelas de vazio com uma fila e uma entrada de cron. Essa disciplina vale a pena construir mesmo que nunca use a DeepSeek, porque a tarifa horária está agora demonstrada, e a versão do seu próprio fornecedor está à distância de uma reunião de produto.

O que fazer antes de meados de julho

Três ações cabem nas duas semanas antes do lançamento. Primeira: quem corre os endpoints em fim de vida deepseek-chat ou deepseek-reasoner precisa de um plano de migração antes de 24 de julho, testado, não apenas planeado. Segunda: as equipas que usam qualquer API de IA medida deviam etiquetar já as suas cargas como adiáveis ou interativas, para que o agendamento seja depois uma mudança de configuração. Terceira: quem gere o orçamento de IA devia modelar a despesa com um preço de dois escalões e fazer a cada fornecedor uma pergunta na renovação: compromete-se com preços independentes da hora durante a vigência do contrato, ou não. A resposta, em qualquer dos casos, é informação.

Leia a seguir: A Nvidia já cobra renda pelos próprios chips · OpenAI oferece uma participação a Washington

Perguntas frequentes

Quando é lançado oficialmente o DeepSeek V4 e o que muda?

A DeepSeek anunciou a 30 de junho que a versão oficial do V4 chega em meados de julho de 2026, com janela de contexto de 1 milhão de tokens de série e preços de ponta na API: tarifas a dobrar nas janelas diárias das 9:00 às 12:00 e das 14:00 às 18:00, horário laboral chinês.

O que acontece aos endpoints existentes da DeepSeek?

Segundo a documentação da DeepSeek, os endpoints antigos deepseek-chat e deepseek-reasoner ficam inacessíveis depois de 24 de julho de 2026, pelo que as integrações construídas sobre eles têm de migrar para a gama V4.

Como devem as empresas europeias responder aos preços de ponta na IA?

Aproveitando o fuso: as pontas comunicadas terminam a meio da manhã em Lisboa. Agendar cargas adiáveis, como lotes e embeddings, para a tarde e a noite europeias, e perguntar a cada fornecedor se os preços ficam contratualmente independentes da hora.

Toda a infraestrutura que importa acaba com preços de hora de ponta: as estradas, a eletricidade e agora a inteligência. Os fornecedores estão a dizer-lhe, na linguagem mais clara que o comércio conhece, que a computação é escassa e que a procura fixa o preço. As empresas que desenharem para esse facto agora, com filas, calendários e níveis de carga, tratarão a sobretaxa como uma fábrica trata a tarifa noturna: como custo dos outros.

DeepSeek AI Pricing API Inference Cloud Costs AI Economy

Mais do Servola Journal

AI Economy

A Nvidia já cobra renda pelos próprios chips

Em 1 de julho de 2026 a Nvidia revelou partilha de receitas e apoio ao crédito para nuvens de IA: vende as GPUs e fica com parte da renda. O que isso faz ao preço da computação.

3 min de leitura

AI Economy

OpenAI oferece uma participação a Washington

Sam Altman propõe entregar cerca de 5 por cento da OpenAI, uns 42,6 mil milhões de dólares, a um fundo soberano americano. O que um acionista estatal significa para as empresas europeias.

3 min de leitura

AI Economy

A Europa constrói o robô, a América paga

A NEURA Robotics captou até 1,4 mil milhões de dólares a 10 de junho de 2026 e a robótica tornou-se o setor mais financiado da Europa. Porque o dinheiro foi para a IA incorporada e o que significa para os proprietários.

3 min de leitura1 visualizações

Servola

A Servola ajuda proprietários a construir arquiteturas de custo de IA que sobrevivem às mudanças de preços dos fornecedores em vez de as absorver.

Solicitar uma apresentação privada Sobre a Servola →

A Servola é aconselhamento tecnológico para um pequeno número de famílias e family offices. Quando uma decisão não pode ser delegada, sentamo-nos do seu lado da mesa.

Servola Systems GmbH · Ludwigshafen, Germany · [email protected]

← Todos os artigos