- TurboQuant comprimeix de forma extrema la KV cau i els vectors d'alta dimensió dels models d'IA, reduint l'ús de memòria més de sis vegades gairebé sense perdre precisió.
- La tècnica combina PolarQuant i QJL per quantitzar i corregir errors amb poca sobrecàrrega, permetent operar fins i tot amb 3 bits per valor i accelerant el càlcul d'atenció fins a vuit vegades.
- El seu impacte afecta tant grans models de llenguatge com sistemes de cerca vectorial, abaratint costos, millorant l'escalabilitat i facilitant el desplegament d'IA avançada en maquinari més modest.

En els últims mesos, el món de la tecnologia ha topat de cara amb el que molts ja anomenen el "RAMpocalypse" per culpa de l'auge de la IA. La demanda de memòria DRAM per entrenar i executar models gegantins s'ha disparat, encarint els xips i deixant altres sectors, com el gaming o el PC domèstic, amb menys oferta i preus a l'alça. Enmig d'aquest panorama, Google ha presentat una proposta que pot canviar les regles del joc: TurboQuant, un sistema de compressió extrema de memòria per a intel·ligència artificial.
Lluny de ser només un altre terme de moda, TurboQuant es presenta com una família d'algorismes matemàtics molt sofisticats que ataquen un coll d'ampolla molt concret: la memòria que necessiten els models per manejar contextos llargs i cerques sobre vectors. Amb aquesta tecnologia, Google afirma que és possible retallar dràsticament l'ús de RAM sense haver de reentrenar els models i mantenint pràcticament intacta la qualitat de les respostes, cosa que pot tenir impacte directe en costos, velocitat i escalabilitat.
Què és Google TurboQuant i per què tant importa
TurboQuant és una tècnica de quantització i compressió extrema dissenyada per Google Research per fer que els models d'intel·ligència artificial consumeixin molta menys memòria durant la inferència. No se centra en els pesos del model en si, sinó en com es representen i s'emmagatzemen els vectors d'alta dimensió que es fan servir en tasques com l'atenció dels LLM o la cerca vectorial.
Al cor de la proposta hi ha la idea que els models actuals gasten una barbaritat de memòria a la trucada KV cache (key-value cache), aquesta “xuleta” interna on el model guarda informació intermèdia sobre el que ja ha processat per no recalcular-lo cada cop que genera una nova paraula. Quan el context és curt no passa res, però quan parlem de milers o desenes de milers de tokens, aquesta memòria es dispara.
Segons les dades que ha compartit Google, TurboQuant és capaç de reduir la mida d'aquesta KV cau més de sis vegades, arribant a funcionar amb representacions de només 3 bits per valor en determinats escenaris, davant de les típiques claus de 16 o 32 bits en coma flotant. Tot això mantenint un rendiment en qualitat pràcticament indistingible de l'original a moltes proves.
A més d'estalviar memòria, la companyia sosté que el càlcul d'atenció es pot accelerar fins a vuit vegades a GPUs com les Nvidia H100 quan s'utilitzen claus fortament quantitzades mitjançant TurboQuant davant de les claus estàndard de 32 bits. Això es tradueix en menys cost d'inferència per consulta, més usuaris atesos amb el maquinari mateix i la possibilitat d'executar models exigents en infraestructures més modestes.
Des d'una perspectiva de mercat, aquesta millora deficiència ha encès alarmes entre els fabricants de memòria DRAM. Si els grans actors d'IA poden servir més peticions amb menys maquinari, la necessitat d'ampliar contínuament la capacitat de memòria en centres de dades es podria moderar, alliberant part de la producció per a altres segments com ara videojocs, ordinadors personals o estacions de treball professionals.
Com funciona TurboQuant: la combinació de PolarQuant i QJL
La clau tècnica de TurboQuant no està només a comprimir més, sinó a prémer al màxim les dades minimitzant l'error afegit. Per aconseguir-ho, Google combina dues idees matemàtiques que es complementen entre si: PolarQuant y QJL (Quantized Johnson-Lindenstrauss).
PolarQuant és un mètode de quantització que reorganitza els vectors portant-los a coordenades polars. En lloc de representar cada component del vector de forma independent en coordenades cartesianes, es treballa amb mòdul i angle, cosa que permet capturar millor l'estructura de les dades i comprimir-les de forma més eficient. En reduir la precisió d'aquesta representació, s'estalvien bits per cada valor amb un impacte molt controlat a la qualitat.
D'altra banda, QJL aplica una variació quantitzada del conegut lema de Johnson-Lindenstrauss, un resultat matemàtic que permet projectar punts d'un espai d'alta dimensió a un de dimensió menor preservant les distàncies amb molt poca distorsió. A TurboQuant, aquesta idea es fa servir en versió extrema: s'afegeix una capa de correcció d'errors que funciona amb només 1 bit addicional per valor per compensar part de l'error residual de la quantització.
Això vol dir que el sistema és capaç d'empènyer la compressió fins a nivells molt agressius sense que el model “miri” les parts equivocades del text ni perdi la capacitat per recuperar la informació rellevant en cerques vectorials. A diferència d'altres esquemes de quantització que necessiten guardar constants extra o taules de correcció que acaben menjant-se part de l'estalvi, TurboQuant manté aquest sobrecost de memòria sota mínims.
Google subratlla que tant TurboQuant com PolarQuant i QJL es recolzen en fonaments matemàtics sòlids i operen a prop dels límits teòrics d'eficiència. No es tracta només de trucs d'enginyeria per a un cas concret, sinó d'enfocaments generals que es podrien estendre a molts tipus de models i escenaris de producció.
El paper de la KV cau: la memòria que ho complica tot
Per entendre per què TurboQuant ha generat tant d'interès, convé aclarir què és exactament la KV cau i per què s'ha convertit en un problema. Quan un model de llenguatge gran comença a respondre, no torna a processar tot el text des de l'inici cada vegada que produeix un nou token. En canvi, va desant representacions internes en forma de parells de claus i valors (keys i values) que li permeten seguir el fil de la conversa o del document.
Aquestes claus i valors són vectors d'alta dimensió i cada nova paraula o fragment de context afegeix més informació a la memòria cau. Si l'usuari demana contextos llargs, si es treballa amb documents extensos o si cal mantenir converses persistents, la mida d'aquesta KV cau es dispara, ocupant una part enorme de la GPU o de la memòria d'amplada de banda alta.
El resultat és que molt del cost de servir una IA potent prové daquesta memòria temporal, més que dels pesos del model en si. En entorns comercials amb milers o milions d'usuaris, aquesta despesa de memòria es tradueix directament en diners: cal més maquinari, més energia i més infraestructura per sostenir la càrrega.
TurboQuant ataca directament aquest coll d'ampolla: extrema la compressió de les claus i valors de la KV cache sense que el model perdi la capacitat per prestar atenció als fragments rellevants del text. Gràcies a aquesta reducció, és possible augmentar el nombre de sessions simultànies, ampliar el context màxim acceptable o fins i tot executar models més grans sense necessitat multiplicar la memòria disponible.
A nivell pràctic, això obre la porta a desplegar models de llenguatge avançats en entorns menys potents, des de servidors de gamma mitjana fins a dispositius edge especialitzats, afavorint usos empresarials on el cost per consulta és crític.
Resultats experimentals i benchmarks on brilla TurboQuant
Per donar suport a les vostres afirmacions, Google ha provat TurboQuant en una bona bateria de benchmarks centrats en context llarg i cerca semàntica. Entre les proves esmentades es troben conjunts com LongBench, Needle In A Haystack, ZeroSCROLLS, RULER o L-Eval, tots dissenyats per mesurar com es comporten els models quan han de manejar grans quantitats de text o informació dispersa.
En aquests experiments, TurboQuant s'ha aplicat a models oberts com Gemma i Mistral, així com a altres sistemes comparables, sense necessitat de reentrenar-los des de zero. La idea és que la tècnica actuï com una capa de compressió afegida sobre models ja existents, cosa que simplifica molt la seva adopció a la pràctica.
Els resultats publicats indiquen que la compressió de la KV cache supera en molts casos el factor 6x, mantenint puntuacions pràcticament idèntiques a les del model original en tasques com preguntes i respostes, resum de documents, generació de codi o comprensió de context llarg. En altres paraules, l'impacte en qualitat és mínim davant de l'estalvi brutal de memòria.
A més, Google ha comparat TurboQuant amb altres mètodes de referència com KIVI en tasques de QA i amb tècniques de cerca vectorial com Product Quantization o RabbiQ. Segons la companyia, el nou enfocament ofereix una relació compressió-precisió més favorable, amb menys sobrecàrrega de memòria i una implementació més senzilla que no requereix ajustaments fins per a cada dataset.
Al terreny del rendiment, les dades assenyalen que el càlcul d'atenció es pot accelerar fins a vuit vegades a GPU Nvidia H100 quan es fan servir claus quantitzades a 3 bits mitjançant TurboQuant en lloc de claus no quantitzades de 32 bits. Aquest salt de velocitat pot marcar la diferència en serveis d'alt trànsit on cada mil·lisegon compte.
Impacte a la indústria: del “RAMpocalypse” a centres de dades més eficients
Més enllà de les xifres de laboratori, el moviment de Google té una lectura clarament industrial: l'eficiència en memòria ja no és un luxe, sinó una necessitat perquè la IA continuï creixent. L'explosió de models de grans dimensions ha tensionat la cadena de subministrament de memòria DRAM i HBM, elevant costos i creant una mena de carrera armamentística pel maquinari més potent.
Si tècniques com TurboQuant es generalitzen, els centres de dades podrien fer molt més amb el mateix número de GPUs. Això vol dir reduir el cost per token servit, abaratir serveis d'IA per a empreses i usuaris finals, i alhora rebaixar la pressió sobre la compra massiva de memòria. Fabricants de xips de memòria ja han notat l'impacte potencial d'aquest tipus d'innovacions en les expectatives de creixement.
Paradoxalment, també hi ha el risc que les grans tecnològiques aprofitin aquesta eficiència per construir models encara més grans en comptes de contenir-se. Si comprimir la memòria intermèdia permet doblar la mida del context o pujar el nombre de paràmetres sense multiplicar-ne el cost, és molt probable que vegem models més ambiciosos en els propers anys, empenyent una altra vegada al límit la infraestructura.
En qualsevol cas, la direcció és clara: la indústria de la IA porta temps obsessionada amb “fer més amb menys maquinari”. Hi encaixen altres esforços com la quantització de pesos, les optimitzacions d'inferència, els models més lleugers o les arquitectures híbrides. TurboQuant se suma a aquesta onada, però atacant específicament la memòria temporal i la representació vectorial, dues peces centrals tant a LLM com a motors de cerca semàntica.
La connexió amb l'estratègia de Google al voltant de Gemini també és evident: perquè assistents avançats funcionin a escala diària, la infraestructura ha de ser molt més eficient. Models com Gemini 3.1 Flash-Lite ja apunten a reduir costos i latència, i TurboQuant encaixa com una capa base que permet sostenir aquestes experiències amb menys memòria per consulta.
Aplicacions en cerca vectorial i sistemes RAG
TurboQuant no està pensat únicament per a models generatius. De fet, un dels seus camps d'aplicació més interessants és la cerca vectorial, una tecnologia essencial en motors de cerca moderns, sistemes de recomanació, recuperació d'informació i solucions RAG (retrieval-augmented generation).
En aquest tipus de sistemes, els documents, els productes o els elements d'una base de dades es representen com a vectors en un espai d'alta dimensió. La similitud entre vectors indica quins elements estan semànticament relacionats, més enllà que comparteixin o no les mateixes paraules. El problema és que emmagatzemar i consultar milions o milers de milions de vectors d'alta dimensió surt car en memòria i en temps de còmput.
Segons assenyala Google, TurboQuant permet construir índexs vectorials molt més compactes gairebé sense perdre precisió en la recuperació top-k (és a dir, a trobar els elements més rellevants). Davant d'alternatives com Product Quantization o RabbiQ, el nou enfocament manté millor l'equilibri entre compressió i qualitat dels resultats, reduint alhora la sobrecàrrega de memòria afegida.
Per a aplicacions pràctiques, això es tradueix en bases de dades semàntiques més grans i més barates d'operar, amb temps de preparació més curts i menys necessitat dajustar paràmetres específics per a cada conjunt de dades. Una cosa especialment atractiva per a empreses que volen desplegar RAG a gran escala sense disparar el cost de la infraestructura.
En sectors com finances, salut, educació o retail, on la informació rellevant està repartida en documents llargs, polítiques internes, historials de clients o material formatiu, aquesta eficiència addicional pot marcar la diferència entre un prototip car i un producte rendible a escala.
Oportunitats per a startups i equips d'IA
Encara que TurboQuant neixi d'un gegant com Google, la seva adopció pot beneficiar de forma especial startups i equips d'IA amb recursos limitats. En permetre que la memòria sigui menys restrictiva, s'obre la porta a executar models de més qualitat en servidors més modestos o en núvols on el cost per GPU és determinant.
Per a projectes en regions com Llatinoamèrica o mercats emergents, on l'accés a maquinari de gamma alta no sempre és senzill o barat, tècniques de quantització avançades com aquesta poden ser la diferència entre poder llençar un producte d'IA competitiu o quedar-se en un pilot intern. Servir més usuaris amb la mateixa màquina és una millora molt tangible quan cada dòlar importa.
En solucions de cerca semàntica, recomanació o assistents especialitzats, reduir el cost de la KV cau i dels índexs vectorials també ajuda a millorar la petjada de carboni computacional. Menys memòria i menys còmput impliquen menys energia consumida, una qüestió cada cop més rellevant de cara a la regulació i la imatge de marca.
A més, en no exigir reentrenar des de zero els models, TurboQuant es pot aplicar sobre LLM open source ja existents com Gemma, Mistral o Flama, cosa que facilita que equips petits experimentin amb ell i l'integrin als seus pipelins sense una inversió descomunal en entrenament.
Google ha anunciat que presentarà TurboQuant en conferències capdavanteres com ICLR 2026, mentre que QJL i PolarQuant tindran presència a AISTATS 2026. Això indica que veurem més documentació, codi i possiblement implementacions de referència llistes perquè la comunitat les provi i les adapti als seus propis sistemes.
En conjunt, TurboQuant es perfila com una peça clau a la cursa per una IA més eficient: redueix la pressió sobre la memòria, millora la velocitat d'inferència i permet que tant grans corporacions com startups es plantegin solucions més ambicioses amb un cost raonable. Si les promeses de Google es confirmen en desplegaments reals, podríem estar davant d'una de les innovacions d'infraestructura més influents d'aquesta generació de models.
Tot apunta que la batalla per l'eficiència en intel·ligència artificial anirà cada cop més per la via de esprémer millor la memòria i la representació de les dades i menys per limitar-se a afegir més i més maquinari, i en aquest escenari TurboQuant, amb la seva barreja de PolarQuant i QJL, es col·loca com una de les eines cridades a marcar tendència els propers anys.