Nvidia mengembangkan teknik baru bernama Dynamic Memory Sparsification (DMS) yang diklaim mampu memangkas kebutuhan memori komputasi kecerdasan buatan (AI) hingga delapan kali lipat. Teknologi ini dirancang untuk mengoptimalkan penggunaan memori pada Large Language Model (LLM) saat melakukan proses penalaran tanpa menurunkan tingkat akurasi.
Optimasi Memori dan Solusi Bottleneck
Dalam model bahasa besar, proses penalaran menghasilkan key-value cache (KV cache) atau memori sementara yang terus membesar seiring bertambahnya token. Kondisi ini sering menjadi hambatan utama karena meningkatkan biaya komputasi dan membatasi jumlah pengguna yang dapat dilayani secara bersamaan.
Melalui DMS, Nvidia memungkinkan model AI untuk mengelola memorinya sendiri dengan memilih token yang perlu dipertahankan. Teknik ini secara signifikan menekan beban pada GPU sehingga sistem dapat berjalan lebih efisien meskipun menangani konteks yang panjang.
Mekanisme Delayed Eviction Tanpa Penurunan Akurasi
Berbeda dengan metode lama yang menggunakan aturan tetap untuk menghapus memori, DMS melatih model untuk mengenali token yang relevan bagi proses penalaran berikutnya. Nvidia juga menerapkan mekanisme delayed eviction untuk menunda penghapusan token agar model sempat menyerap konteks penting.
Hasil pengujian pada model seperti Qwen dan Llama menunjukkan peningkatan efisiensi tanpa adanya penurunan performa. Pada beberapa benchmark matematika dan pengkodean, model dengan DMS bahkan mencatat skor yang lebih tinggi dibandingkan versi standar dengan anggaran komputasi yang sama.
| Benchmark | Qwen3-8B Vanilla | Qwen3-8B DMS |
|---|---|---|
| MATH 500 | Identik | Identik/Lebih Tinggi |
| HumanEval | Identik | Identik/Lebih Tinggi |
| AIME 2024 | Identik | Identik/Lebih Tinggi |
Implementasi pada Infrastruktur AI Eksisting
Nvidia menyatakan bahwa teknologi DMS dapat diterapkan pada model yang sudah dilatih sebelumnya tanpa memerlukan proses pelatihan ulang dari awal. Adaptasi ini bersifat ringan dan kompatibel dengan infrastruktur inference standar yang digunakan saat ini.
Teknologi ini telah dirilis sebagai bagian dari framework Model Optimizer Nvidia. Pengguna dapat mengintegrasikannya dalam pipeline AI berbasis Hugging Face maupun sistem yang mendukung FlashAttention untuk meningkatkan stabilitas performa GPU.
Informasi lengkap mengenai teknologi Dynamic Memory Sparsification ini disampaikan melalui pernyataan resmi Nvidia yang dirilis melalui kanal resmi perusahaan pada Februari 2026.
