AI Economy

KI-Tokens haben jetzt eine Rushhour

DeepSeek veröffentlicht V4 Mitte Juli mit der ersten zeitabhängigen KI-API-Preisstruktur: doppelte Sätze während chinesischer Geschäftszeiten. Warum KI-Tokens zum Versorgungsgut werden und Europa einen Uhrzeitvorteil hat.

AI EconomyVon Servola Tech Desk2026-07-043 Min. Lesezeit

KI-gestützt, von Menschen redigiert. Editorial standards

Die wichtigsten Punkte

Am 30. Juni 2026 kündigte DeepSeek die offizielle V4-Veröffentlichung für Mitte Juli an, mit der ersten zeitabhängigen Preisstruktur einer großen KI-API: Nutzung in den täglichen Spitzenfenstern von 9:00 bis 12:00 und 14:00 bis 18:00 Uhr kostet das Doppelte des Nebenzeit-Tarifs.
V4 kommt mit standardmäßig 1 Million Token Kontextfenster; an der Spitze steht V4-Pro, ein Mixture-of-Experts-Modell mit 1,6 Billionen Parametern und 49 Milliarden aktiven, daneben das leichtere V4-Flash; die älteren Endpunkte deepseek-chat und deepseek-reasoner werden nach dem 24. Juli abgeschaltet.
Zeitabhängige Preise importieren Stromnetz-Ökonomie in die KI: ein Eingeständnis, dass Inferenzkapazität endlich ist und die Nachfrage, nicht nur der Verbrauch, den Preis setzt.
Europäische Einkäufer gewinnen einen buchstäblichen Uhrzeitvorteil: Die gemeldeten Spitzenfenster entsprechen dem frühen Morgen und dem Vormittag in Mitteleuropa; der gesamte europäische Nachmittag und Abend läuft in der Nebenzeit.

Was DeepSeek angekündigt hat

Am 30. Juni 2026 erklärte DeepSeek, die offizielle Version von V4 erscheine Mitte Juli und löse die seit dem 24. April verfügbare Vorschau ab, wie TechNode berichtet. Das eigentliche Novum ist kein Benchmark, sondern ein Preismechanismus: Erstmals bei einer großen KI-API kosten Tokens zu verschiedenen Tageszeiten unterschiedlich viel; in den täglichen Fenstern von 9:00 bis 12:00 und 14:00 bis 18:00 Uhr, den chinesischen Geschäftszeiten, verdoppeln sich die Sätze, die Nebenzeit bleibt unverändert.

Die Modelle selbst sind gewichtig: Ein Kontextfenster von 1 Million Token wird Standard der gesamten Reihe, V4-Pro ist ein Mixture-of-Experts-Design mit 1,6 Billionen Parametern und 49 Milliarden aktiven, V4-Flash ein Modell mit 284 Milliarden Parametern und 13 Milliarden aktiven. Die Dokumentation von DeepSeek setzt zudem eine harte Frist: Die älteren Endpunkte deepseek-chat und deepseek-reasoner sind nach dem 24. Juli nicht mehr erreichbar; bestehende Integrationen müssen migrieren, ob ihnen der neue Zähler gefällt oder nicht.

Warum ein Modelllabor Preise macht wie ein Stromversorger

Zeitabhängige Preise existieren in genau einer Art von Markt: feste Kapazität, schwankende Nachfrage. Stromnetze haben sie erfunden, weil Speicher teuer waren und die Spitzenlast die Größe des ganzen Systems bestimmte. Dass ein KI-Labor nun zum selben Werkzeug greift, ist ein Eingeständnis, das mehr wert ist als jede Keynote: Inferenzkapazität ist endlich, GPUs stellen sich nicht höflich an, und das Grenztoken um 10:30 Uhr an einem Dienstag kostet den Betreiber mehr als dasselbe Token um Mitternacht.

Es zerbricht auch eine bequeme Annahme. Zwei Jahre lang hat die Branche erzählt, Intelligenz werde jedes Quartal billiger. Pro Token stimmt das weiter. Aber der neue Mechanismus bedeutet, dass der Preis derselben Anfrage keine Konstante mehr ist; wer mit flachen Stückkosten geplant hat, besitzt jetzt ein kleines Energiehandelsproblem. Sobald ein Anbieter zeigt, dass Kunden Spitzenpreise akzeptieren, haben alle anderen jeden Anreiz zu folgen.

Der europäische Uhrzeitvorteil

Für europäische Einkäufer liegt die Geographie der Spitzenfenster ungewöhnlich günstig. Die gemeldeten Spitzenzeiten fallen auf 3:00 bis 6:00 und 8:00 bis 12:00 Uhr mitteleuropäischer Sommerzeit. Ab Mittag in Frankfurt, Wien oder Zürich läuft der gesamte Arbeitsnachmittag und Abend in der Nebenzeit. Ein europäisches Unternehmen zahlt bei DeepSeek für den Großteil seines Geschäftstags den vergünstigten Satz, während ein chinesischer Wettbewerber während seines eigenen das Doppelte zahlt.

Der praktische Schritt ist architektonisch, nicht vertraglich: latenzkritische Aufrufe von aufschiebbaren trennen. Nächtliche Batchläufe, Embeddings, Neuindexierung, Evaluationen und Berichte lassen sich mit einer Warteschlange und einem Cron-Eintrag in Nebenzeitfenster legen. Diese Disziplin lohnt sich selbst dann, wenn Sie DeepSeek nie nutzen, denn zeitabhängige Preise sind jetzt vorgeführt, und die Version Ihres eigenen Anbieters ist nur eine Produktsitzung entfernt.

Was bis Mitte Juli zu tun ist

Drei Schritte passen in die zwei Wochen vor der Veröffentlichung. Erstens: Wer die auslaufenden Endpunkte deepseek-chat oder deepseek-reasoner betreibt, braucht vor dem 24. Juli einen getesteten, nicht bloß geplanten Migrationspfad. Zweitens: Teams mit beliebigen getakteten KI-APIs sollten ihre Workloads jetzt als aufschiebbar oder interaktiv markieren, damit die Planung später nur eine Konfigurationsänderung ist. Drittens: Wer das KI-Budget verantwortet, sollte die Ausgaben unter einem Zwei-Tarif-Preis modellieren und jedem Anbieter zur Verlängerung eine Frage stellen: Verpflichten Sie sich für die Vertragslaufzeit zu zeitunabhängigen Preisen oder nicht. Die Antwort ist in beiden Fällen eine Information.

Weiterlesen: Nvidia kassiert jetzt Miete auf eigene Chips · OpenAI bietet Washington einen Anteil

Häufig gestellte Fragen

Wann erscheint DeepSeek V4 offiziell und was ändert sich?

DeepSeek kündigte am 30. Juni an, dass die offizielle V4-Version Mitte Juli 2026 erscheint, mit standardmäßig 1 Million Token Kontext und Spitzenzeit-Preisen: doppelte Sätze in den täglichen Fenstern von 9:00 bis 12:00 und 14:00 bis 18:00 Uhr chinesischer Geschäftszeit.

Was passiert mit den bestehenden DeepSeek-Endpunkten?

Laut DeepSeek-Dokumentation sind die älteren Endpunkte deepseek-chat und deepseek-reasoner nach dem 24. Juli 2026 nicht mehr erreichbar; darauf gebaute Integrationen müssen auf die V4-Reihe migrieren.

Wie sollten europäische Unternehmen auf Spitzenzeit-Preise reagieren?

Den Zeitzonenversatz nutzen: Die gemeldeten Spitzen enden gegen Mittag mitteleuropäischer Zeit. Aufschiebbare Workloads wie Batchläufe und Embeddings in den europäischen Nachmittag und die Nacht legen und jeden KI-Anbieter fragen, ob die Preise vertraglich zeitunabhängig bleiben.

Jede Infrastruktur, die zählt, bekommt irgendwann Rushhour-Preise: Straßen, Strom, jetzt Intelligenz. Die Anbieter sagen Ihnen in der deutlichsten Sprache, die der Handel kennt, dass Rechenleistung knapp ist und die Nachfrage den Preis setzt. Unternehmen, die jetzt dafür bauen, mit Warteschlangen, Zeitplänen und Workload-Stufen, werden den Aufschlag behandeln wie eine Fabrik den Nachtstrom: als Kosten der anderen.

DeepSeek AI Pricing API Inference Cloud Costs AI Economy

Mehr aus dem Servola Journal

AI Economy

Nvidia kassiert jetzt Miete auf eigene Chips

Am 1. Juli 2026 stellte Nvidia Umsatzbeteiligung und Kreditstuetzung fuer KI-Clouds vor: Es verkauft die GPUs und behaelt einen Anteil der Miete. Was das fuer Ihren Compute-Preis bedeutet.

3 Min. Lesezeit

AI Economy

OpenAI bietet Washington einen Anteil

Sam Altman schlägt vor, rund 5 Prozent von OpenAI, etwa 42,6 Milliarden Dollar, in einen US-Staatsfonds zu geben. Was ein staatlicher Anteilseigner im Frontier-Lab für europäische Unternehmen bedeutet.

3 Min. Lesezeit

AI Economy

Europa baut den Roboter, Amerika zahlt

NEURA Robotics sammelte am 10. Juni 2026 bis zu 1,4 Milliarden Dollar ein, und Robotik wurde Europas bestfinanzierter Sektor. Warum das Geld in verkörperte KI floss und was das für Eigentümer bedeutet.

3 Min. Lesezeit1 Aufrufe

Servola

Servola hilft Eigentümern, KI-Kostenarchitekturen zu bauen, die Preisänderungen der Anbieter überstehen, statt sie zu schlucken.

Vertrauliches Gespräch anfragen Über Servola →

Servola ist technologische Beratung für einige wenige Familien und Family Offices. Wenn eine Entscheidung nicht delegierbar ist, sitzen wir auf Ihrer Seite des Tisches.

Servola Systems GmbH · Ludwigshafen, Germany · [email protected]

← Alle Beiträge