Da inferência de borda à NVIDIA STX, a infraestrutura de cache KV foi projetada especificamente para desempenho consistente em escala
A Graid Technology, pioneira em armazenamento NVMe acelerado por GPU, anunciou hoje seu Portfólio Agentic AI Storage: uma família de soluções de cache KV projetadas especificamente para eliminar o gargalo de armazenamento que impede a IA de produção “always-on” (sempre ativa). O portfólio abrange três níveis de implementação: KV Cache Server, KV Cache Rack e KV Cache Platform, todos baseados na tecnologia SupremeRAID™. A KV Cache Platform, o nível mais alto do portfólio, está especificamente alinhada com a arquitetura de referência STX da NVIDIA, com execução nativa em DPUs BlueField-4 prevista para o segundo semestre de 2026.
À medida que a IA agêntica passa da experimentação para a produção, as premissas de infraestrutura que sustentavam a inferência de passagem única não são mais válidas. Modelos que executam tarefas contínuas de várias etapas e mantêm o contexto por horas de operação geram demandas de cache KV que excedem a memória HBM da GPU. O resultado: latência máxima de até 18 vezes maior, utilização da GPU de apenas 50% e falhas em nível de modelo, incluindo alucinações e raciocínio comprometido, que são difíceis de detectar e caras de recuperar.
O SupremeRAID™ resolve esse problema agregando até 32 unidades NVMe em um único pool virtual de 280 GB/s, ignorando a CPU com o GPU Direct Storage e oferecendo leituras de cache KV em 1,3 ms — 77 vezes mais rápido que o NVMe padrão. Os três níveis do portfólio levam essa capacidade a todas as escalas de implementação:
KV Cache Server – aceleração NVMe de nó único para servidores de inferência individuais e implementações de IA na borda. Disponível agora.
KV Cache Rack – soluções em escala de rack validadas por parceiros, desenvolvidas em conjunto com os principais fabricantes de servidores para clusters corporativos com múltiplas GPUs. Disponível agora.
KV Cache Platform – projetada especificamente para a arquitetura de referência STX da NVIDIA, com execução nativa em DPUs BlueField-4 e expansão de armazenamento em escala de rack no roadmap.
“Há um ano, na GTC 2025, Jensen Huang previu que o armazenamento seria acelerado por GPU pela primeira vez. Este ano, a NVIDIA transformou esse conceito em uma arquitetura com STX e CMX”, disse Leander Yu, CEO da Graid Technology. “Nosso portfólio de caches KV foi desenvolvido precisamente para este momento, oferecendo o desempenho de armazenamento que a IA agente exige, com sua própria economia de camada de armazenamento.”
Para empresas e equipes de infraestrutura que avaliam implementações de IA agente, a arquitetura de implementação completa, as especificações técnicas e os detalhes de compatibilidade com NVIDIA STX estão disponíveis no documento da solução.
Sobre a Graid Technology
A Graid Technology está construindo a base de armazenamento para o futuro da IA, das empresas e da computação de alto desempenho. Como criadora do SupremeRAID™, o primeiro e único RAID baseado em GPU do mundo, e administradora global do Intel® Virtual RAID on CPU (Intel® VROC), a Graid Technology oferece soluções RAID flexíveis que maximizam o desempenho do NVMe, garantindo proteção de dados resiliente e escalável para infraestruturas de dados modernas. Com sede no Vale do Silício e operações globais e P&D em Taiwan, a Graid Technology impulsiona a inovação em RAID para a próxima geração de cargas de trabalho com uso intensivo de dados. Mais informações em graidtech.com.
Mais informações sobre as soluções de IA da Graid Technology em graidtech.com/ai.



