NVIDIA und Microsoft erfinden den PC neu: RTX Spark führt 120-Milliarden-Parameter-LLMs lokal aus — ganz ohne Cloud

KI-Hardware

2026-06-04 · 8 Min. Lesezeit

Auf dem Computex 2026 stellten NVIDIA und Microsoft RTX Spark vor — ein Superchip mit 1 Petaflop KI-Rechenleistung und 128 GB Unified Memory im Laptop, der 120-Milliarden-Parameter-Modelle vollständig lokal ausführt, ohne Cloud-Abhängigkeit.

TAIPEH / SAN FRANCISCO, 1. Juni 2026 — Auf dem Computex 2026 enthüllten NVIDIA und Microsoft gemeinsam ihre ambitionierteste Kooperation: die RTX-Spark-Plattform, ein ARM-Superchip, der rechenzentrumsstarke KI-Rechenleistung direkt in Laptops und kompakte Desktop-PCs bringt — und damit die Fähigkeit, Sprachmodelle mit 120 Milliarden Parametern vollständig lokal auszuführen, ganz ohne Cloud-Abhängigkeit.

Die Ankündigung löste unmittelbare Marktreaktionen aus: NVIDIA-Aktien (NVDA) gewannen am Tag der Vorstellung 6,26 % und fügten der Marktkapitalisierung des Unternehmens rund 316,68 Milliarden Dollar hinzu, die damit 5,38 Billionen Dollar erreichte.

Was RTX Spark ist und warum es wichtig ist

RTX Spark ist kein schnellerer Laptop-GPU. Es ist eine völlig neue Architektur — ein Superchip, der eine Grace-ARM-CPU mit 20 Kernen und eine Blackwell-GPU mit 6.144 CUDA-Kernen der fünften Generation kombiniert, verbunden über einen NVLink-C2C-Bus mit 900 GB/s. Alles in einem einzigen Gehäuse, mit bis zu 128 GB einheitlichem LPDDR5X-Speicher und 1 Petaflop KI-Rechenleistung.

Ein 120-Milliarden-Parameter-Modell wie Llama oder Qwen, mit einem Kontextfenster von 1 Million Token, kann in Echtzeit direkt auf einem Laptop ausgeführt werden — mit einer Antwortlatenz von unter 2 Sekunden — ohne jeglichen Aufruf eines externen Servers.

Zum Vergleich: Dieselben Modelle, die heute auf bestehenden Copilot+-Laptops ausgeführt werden, erfordern Dutzende Round-Trips zu Azure, mit Antwortzeiten von 10-15 Sekunden pro komplexer Aufgabe. Auf RTX Spark zeigte die Live-Demo auf dem Build 2026 einen vollständigen Workflow — „finde den Vertrag vom letzten März, fasse die Schlüsselklauseln zusammen und sende eine überarbeitete Version an die Rechtsabteilung" — abgeschlossen in unter 2 Sekunden.

Technische Architektur: Was RTX Spark anders macht

Der Grace-Blackwell-Superchip im Consumer-Formfaktor

Die Grace-Blackwell-Familie war bisher Rechenzentren vorbehalten — den DGX- und HGX-Servern. RTX Spark ist das erste Mal, dass der vollständige NVIDIA-Stack (CUDA, TensorRT, OptiX, DLSS, Reflex) in einem nur 14 Millimeter dünnen und 1,36 Kilogramm schweren Laptop ankommt.

Unified Memory — Beseitigung des klassischen Engpasses

Das grundlegende Problem bei der Ausführung von LLMs auf Consumer-Hardware war immer der Speicher: Ein 70B-Parameter-Modell in FP16 benötigt ~140 GB RAM. Bei traditionellen Architekturen haben CPU und GPU separate Speicherpools, und der Datentransfer zwischen ihnen erzeugt einen schwerwiegenden Engpass.

RTX Spark beseitigt dieses Problem durch einheitlichen LPDDR5X-Speicher — sowohl die Grace-CPU als auch die Blackwell-GPU greifen auf denselben 128-GB-Pool bei 273 GB/s zu, ohne die Bandbreitenstrafe eines traditionellen PCIe-Busses. Derselbe Ansatz, der Apple Silicon für lokale Inferenz wettbewerbsfähig gemacht hat — hier aber mit dem vollständigen CUDA-Stack und nativer Windows-Kompatibilität.

Inferenzleistung

NVIDIA kündigt eine 2×-Verbesserung gegenüber der Vorgängergeneration für die besten agentischen Modelle an. Tensor-Kerne der fünften Generation unterstützen FP4, FP8, FP16 und BF16 — das FP4-Format halbiert die Modellgröße ohne nennenswerten Qualitätsverlust.

Die Microsoft-Partnerschaft: Windows wird zum agentischen OS

Auf dem Microsoft Build 2026, der gleichzeitig in San Francisco stattfand, enthüllte das Unternehmen Windows Copilot Runtime — ein neues Windows-11-Subsystem, das KI-Agenten sicheren Zugriff auf lokale Dateien, Systemeinstellungen, Peripheriegeräte und Anwendungen bietet, alles auf RTX-Spark-Hardware.

NVIDIA OpenShell

OpenShell ist NVIDIAs Framework für die Ausführung autonomer Agenten auf Windows, aufgebaut auf Microsofts neuen OS-Sicherheitsprimitiven. Konkret bedeutet das, dass ein KI-Agent:

Auf Dateien und Anwendungen zugreifen kann, die der Benutzer explizit gewährt.
Mehrstufige Aufgaben über Nacht ausführen kann, wenn der Computer nicht aktiv genutzt wird.
Vollständig lokal laufen kann — Daten verlassen niemals das Gerät.

Das System enthält architektonische Guardrails: Ein Agent kann nicht mehr zugreifen, als ihm explizit gewährt wird, und jede Aktion wird in unveränderlichen Audit-Trails protokolliert. Die beliebtesten Open-Source-Agentenprojekte — Hermes Agent und OpenClaw — integrieren bereits OpenShell in ihre nativen Windows-Anwendungen.

Vollständige RTX-Spark-Spezifikationen

CPU: Grace ARM, 20 Kerne, maximale Effizienz.
GPU: Blackwell RTX, 6.144 CUDA-Kerne, 5th-gen Tensor.
Tensor Cores: FP4 / FP8 / FP16 / BF16.
KI-Rechenleistung: 1 PetaFLOP.
Unified Memory: bis zu 128 GB LPDDR5X bei 273 GB/s.
CPU-GPU-Verbindung: NVLink-C2C, 900 GB/s.
Max. lokales LLM: 120B Parameter, 1M Token Kontext.
Formfaktoren: Laptop 14-16", kompakter Desktop. Mindestdicke 14 mm, Gewicht ~1,36 kg.
Display: Tandem OLED, G-SYNC, farbtreu.
Software-Stack: CUDA, TensorRT, OptiX, DLSS 4.5, Reflex.
Verfügbarkeit: Herbst 2026.

Wer RTX-Spark-Geräte baut

NVIDIA bestätigte auf dem Computex 2026, dass acht große Hersteller bereits Designs für den Herbst 2026 in Entwicklung haben. Bestätigt: ASUS (ProArt P16, P14, Mini PC), Dell, HP, Lenovo, Microsoft Surface, MSI. Folgen: Acer, GIGABYTE.

ASUS entwickelt Adobe Photoshop und Premiere Pro von Grund auf für RTX Spark neu, mit 2× Leistung gegenüber aktuellen Versionen. Blender wird 90-GB+-3D-Szenen rendern und 12K-4:2:2-Video in Echtzeit bearbeiten können. Die Microsoft Surface RTX Spark Dev Box — auf dem Build 2026 angekündigt — ist speziell für Entwickler konzipiert.

Wettbewerbsumfeld: Intel, AMD, Qualcomm, Apple

vs. Apple Silicon (M4 Ultra): Apple war bislang unangefochtener Marktführer bei lokaler Inferenz auf Laptops. RTX Spark bietet denselben Unified-Memory-Ansatz, aber mit dem vollständigen CUDA-Stack und dem Windows-Ökosystem — native Kompatibilität mit PyTorch, Hugging Face, vLLM, ohne Portierung.

vs. Qualcomm Snapdragon X Elite: RTX Spark bietet 5-10× mehr rohe KI-Rechenleistung, bei höherem Energieverbrauch.

vs. Intel Core Ultra / AMD Ryzen AI: Beide erfüllen Microsofts 40-TOPS-Anforderung für Copilot+, sind aber weit von 1 Petaflop entfernt. Sie bleiben wettbewerbsfähig in Gaming- und x86-Workstation-Segmenten.

Die Preise sind noch unbestätigt. RTX-Spark-Laptops werden für Einstiegskonfigurationen auf 1.500-2.500 USD geschätzt, mit Premium-Modellen über 3.000 USD.

Was das für Unternehmen bedeutet, die KI einsetzen

Echter Datenschutz für sensible Daten — Verträge, Patientendaten, Finanzinformationen werden ausschließlich on-device verarbeitet.
Eliminierung von Cloud-API-Kosten für hohe Volumina — ein lokal ausgeführtes 120B-Modell bedeutet null Token-Kosten für die interne Nutzung.
KI-Agenten, die offline arbeiten — komplexe Aufgaben über Nacht ohne aktive Internetverbindung.
Lokales Fine-Tuning auf proprietären Daten — 128 GB Unified Memory ermöglichen das Training mittelgroßer Modelle (7B-13B) direkt auf dem Gerät.

Relevanz für das Visual AI Labs Ökosystem

Die RTX-Spark-Plattform validiert direkt die strategische Ausrichtung, die wir bei Visual AI Labs verfolgen: den Aufbau von KI-Systemen, die lokal oder in der eigenen Infrastruktur des Unternehmens laufen, ohne Cloud-Abhängigkeit, mit Daten, die den Perimeter der Organisation nie verlassen.

Die Lösungen, die wir entwickeln — intelligente Dokumentenverarbeitung, interne KI-Agenten, auf proprietären Daten trainierte Assistenten — sind mit dieser Architektur im Sinn konzipiert. RTX Spark bedeutet, dass diese Lösungen nun auch auf Premium-Workstations oder Laptops der Mitarbeiter laufen können, nicht nur auf dedizierten Servern.

Kostenlose Beratung — Ihre On-Device-KI-Strategie mit Visual AI Labs →