In den Tech News sorgt Google Research gerade für eine ungewöhnlich direkte Kettenreaktion. Google hat am 24. März TurboQuant vorgestellt, ein neues Kompressionsverfahren für KI Inferenz und Vektorsuche. Laut Google kann TurboQuant den Speicherbedarf des KV Cache um mindestens das Sechsfache senken, Schlüsselwerte auf 3 Bit komprimieren und auf Nvidia H100 GPUs bei 4 Bit bis zu achtfach schnellere Attention-Berechnungen ermöglichen. Am 26. März standen genau solche Effizienzversprechen plötzlich auch im Zentrum der Börsenreaktion: Micron lag im US Handel rund 3,8 Prozent im Minus, Sandisk etwa 5,3 Prozent.
Google greift den teuersten Teil der LLM Inferenz direkt an
Der technische Kern von TurboQuant liegt beim KV Cache, also dem Zwischenspeicher, den große Sprachmodelle für Kontext und Attention nutzen. Google beschreibt diesen Bereich als einen der zentralen Speicherengpässe moderner KI Systeme. Genau dort setzt TurboQuant an: Die Methode soll die Größe des KV Cache massiv reduzieren, ohne Genauigkeit einzubüßen, und zugleich auch Vektorsuche effizienter machen. In den veröffentlichten Experimenten verweist Google auf Benchmarks mit Gemma und Mistral sowie auf Ergebnisse in LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval.
Für den Markt ist das deshalb brisant, weil Memory bisher als einer der großen Profiteure des KI Booms galt. Wenn ein Verfahren glaubhaft zeigt, dass sich derselbe Inferenz-Workload mit deutlich weniger Speicher fahren lässt, ändert das sofort die Diskussion über zukünftigen Hardwarebedarf. Die Kursreaktion bei Micron und Sandisk zeigt genau diesen Punkt: Anleger bewerten nicht nur ein Forschungspapier, sondern die Möglichkeit, dass sich die Infrastrukturkosten für KI schneller verschieben könnten als bisher gedacht. Das ist noch kein Beweis für dauerhaft schwächere Nachfrage, aber ein klarer Hinweis darauf, dass Effizienzsprünge bei Inferenz inzwischen direkt auf den Halbleitermarkt durchschlagen.
Die größere Frage lautet jetzt nicht mehr nur mehr Speicher, sondern weniger Speicher pro Modell
Google selbst beschreibt TurboQuant nicht als kleine Optimierung, sondern als grundlegenden Beitrag für große KI und Suchsysteme. Die Methode soll nicht nur praktisch effizient sein, sondern sich auch theoretisch nahe an den unteren Grenzen des Machbaren bewegen. Im Ausblick nennt Google ausdrücklich Anwendungen in Gemini und in großskaliger semantischer Suche. Damit wird klar, warum die Reaktion so stark ausfällt: Es geht nicht nur um Forschung im Labor, sondern um die Aussicht, dass große Modelle mit weniger Memory-Footprint in Produktion gehen können.
Der eigentliche News-Wert liegt genau dort. Bisher wurde der KI Infrastrukturmarkt oft als Wettlauf um immer mehr GPU Leistung, HBM und DRAM gelesen. TurboQuant verschiebt diese Erzählung. Plötzlich steht im Raum, dass der nächste große Vorteil nicht nur aus mehr Hardware kommt, sondern aus besserer mathematischer Kompression auf bestehender Hardware. Für Speicherhersteller heißt das nicht automatisch, dass die KI Nachfrage zusammenbricht. Es heißt aber, dass der Markt ab jetzt stärker zwischen Bruttobedarf und Effizienzbedarf unterscheiden muss. Google hat damit nicht nur ein neues KI Verfahren vorgestellt, sondern einen neuen Unsicherheitsfaktor in den Memory Chip Sektor geschickt