Live-Podcast mit Veeam Software zur neuen Availability Suite Version v10 und der weiteren Produktstrategie des Anbieters

Author: Norbert Deuschle, Storage Consortium

Language: de

Genres: News, Tech News

Contact email: Get it

Feed URL: Get it

iTunes ID: Get it

Get all podcast data

Listen Now...

Verfahren zur Einsparung von Speicherplatz beim Einsatz großer KI-Sprachmodelle und der Vektorsuche
Wednesday, 29 April, 2026

Die kritische Ressource „Storage für KI“ weiter optimieren. Neu: Google PolarQuant mit extremer Kompression zur Lösung des Speicherbedarfs bei der Vektor-Quantisierung und WEKA AI Storage mit Augmented Memory Grid und Token-Warehouse zusammen mit NVIDIA's Inference Context Memory Storage Platform und GPUDirect Storage (GPU-Speicher mit GPUDirect Storage und RDMA erweitern). Zum Inhalt dieses nicht KI-erzeugten Podcasts (Hörzeit 8:25 min): Interaktionen bei agentischen KI-Systemen werden komplexer und betreffen sowohl die Inferenzleistung selbst, als auch deren Wirtschaftlichkeit. Der Grund: Anwendungen wie große Sprachmodelle (LLMs) benötigen immer mehr Speicherplatz, um KeyValue Einträge im Cache zu speichern. Dies gilt insbesondere bei der Verarbeitung von Kontext mit großer Reichweite und Vector Search Engines. Damit steigt parallel die Nachfrage nach schnellen Speicherchips und NAND Flash weiter an. Nicht nur auf Grund aktueller Engpässe bei der Versorgung mit Memory- und Flashstorage entsteht damit ein potentiell kritischer Flaschenhals. Das alles macht Anwenderseitig verschiedene Maßnahmen zur möglichst effektiven Reduzierung des Speicherbedarfs notwendig und rückt als Priorität bei KI-Projekten mit in den Vordergrund. Inference Context ist im Zeitalter von Agents und deren komplexen Interaktionen inzwischen nicht länger eine reine Optimierungs-, sondern zunehmend eine gesamte IT-Infrastruktur-Herausforderung. Im folgenden Überblick finden Sie zwei aktuelle Beispiele zu Lösungen, um die geschilderten Anforderungen IT-Infrastruktur-, Storage- und datenseitig zu adressieren...