Qué es la LLC y en qué se diferencia de la Top Level Cache

Inicio » Windows » Qué es la LLC (Last Level Cache) y diferencias con la Top Level Cache

La memoria caché de la CPU forma una jerarquía L1, L2 y L3 (a veces L4) que reduce drásticamente la latencia frente a la RAM.
La LLC (Last Level Cache) es el último nivel de caché antes de la RAM, normalmente la L3, y es clave para el rendimiento global.
Aumentar la capacidad de la L3/LLC, como en los Ryzen con 3D V-Cache, mejora de forma notable el rendimiento en juegos.
El equilibrio entre arquitectura, caché y RAM determina la fluidez real del sistema más allá de la frecuencia y el número de núcleos.

Si alguna vez has mirado la ficha técnica de un procesador seguro que has visto cifras de núcleos, frecuencia o TDP, pero quizá has pasado por alto un dato que suena raro: caché L1, L2, L3 o incluso LLC. Y sin embargo, ese pequeño bloque de memoria dentro de la CPU es clave para que el PC vaya fino o se arrastre cada vez que abres un juego o un programa pesado.

En las próximas líneas vamos a destripar qué es exactamente la memoria caché de la CPU, qué papel juega la LLC (Last Level Cache), cómo se organiza la jerarquía de L1, L2 y L3, qué diferencia hay con la llamada Top Level Cache, cómo influye en rendimiento real (sobre todo en juegos) y por qué fabricantes como AMD han montado auténticos monstruos de caché como los Ryzen con 3D V-Cache.

Qué es la memoria caché de la CPU

Dentro de un ordenador conviven varios tipos de memoria que se pueden agrupar, a grandes rasgos, en memoria volátil y no volátil. La no volátil es la que mantiene los datos apagando el equipo (discos duros, SSD), mientras que la volátil los pierde al cortar la corriente (RAM, cachés, registros).

La memoria caché de la CPU es un tipo muy específico de memoria volátil, diseñada para servir de “almacén ultra rápido” entre la RAM y los núcleos. Está implementada con tecnología SRAM, mucho más cara y rápida que la DRAM de la RAM del sistema, y se integra directamente dentro del chip del procesador.

Su función principal es actuar como buffer de instrucciones y datos que la CPU va a necesitar de forma inminente. En vez de ir cada vez a la RAM (más lenta y con mayor latencia), el procesador intenta leer primero en sus propios niveles de caché, recortando de forma brutal los tiempos de acceso.

Cuando la información que busca un núcleo está ya en la caché se produce lo que se conoce como “acierto de caché” (cache hit). Si no está, hablamos de “fallo de caché” (cache miss) y la CPU se ve obligada a ir a niveles de memoria más alejados (otra caché más lenta, la RAM, o incluso almacenamiento si el dato aún no estaba cargado).

Este mecanismo explica por qué la velocidad y la capacidad de la caché se notan tanto en el rendimiento real. Cada fallo obliga a consumir ciclos de reloj esperando a que lleguen datos frescos, y esa espera acumulada se traduce en aplicaciones menos ágiles y juegos con más tirones.

Jerarquía de memoria en un PC: discos, RAM y caché

Para situar bien a la caché conviene ver todo el “escalera” de memoria de un PC, desde lo más lento y grande hasta lo más rápido y pequeño, donde la CPU busca la información que necesita siguiendo un orden de cercanía y velocidad.

En la base del sistema de memoria tenemos el almacenamiento masivo: discos duros mecánicos (HDD) y unidades SSD. Es donde vive el sistema operativo y todos tus programas y archivos. Un HDD típico ronda los 150 MB/s, mientras que un SSD NVMe moderno puede superar los 3.000-3.500 MB/s, pero aun así están muy lejos de la velocidad que necesita una CPU actual.

Por encima está la memoria RAM (DRAM), que actúa como puente entre el almacenamiento y el procesador. Carga en ella el sistema operativo y los programas en uso, y ofrece anchos de banda del orden de decenas de GB/s (más de 30.000 MB/s en DDR4 rápida, todavía más en DDR5), pero con latencias de decenas de nanosegundos.

En el peldaño más alto se sitúa la memoria caché integrada en la CPU. Es de tipo SRAM, muchísimo más rápida y con latencias de nanosegundos o fracciones de nanosegundo. A cambio, su capacidad es diminuta en comparación: se mide en kilobytes o megabytes, no en gigabytes o terabytes.

Esta estructura jerárquica explica que, cuando ejecutas un programa, los datos viajen desde el disco al RAM y de ahí a las cachés. El controlador de memoria de la CPU decide qué bloques de la RAM son más probables de usarse inmediatamente y los precarga en caché para tenerlos “a mano”.

Caché L1, L2, L3 y LLC (Last Level Cache)

La caché de un procesador moderno no es un bloque único, sino que se organiza en distintos niveles: L1, L2 y L3 en casi todas las CPUs de consumo, y en algunos casos también L4. Cada nivel tiene un tamaño, una latencia y una velocidad distintos, formando lo que se conoce como jerarquía de caché.

La regla general es sencilla: cuanto menor es el número de nivel (L1), más rápida y cercana es la caché, pero su capacidad es más limitada. A medida que subimos hacia L3 o L4, el tamaño crece pero también crecen latencias y tiempos de acceso.

En la práctica, esto se traduce en que la CPU busca los datos siguiendo el orden: L1 → L2 → L3 (LLC) → RAM. Solo si falla en todos los niveles llega a consultar la memoria principal, lo que penaliza bastante el tiempo de respuesta.

En generaciones antiguas, parte de estas cachés (sobre todo L2) llegó a estar en la placa base, en chips aparte. Esa distancia física extra aumentaba la latencia de forma notable y recortaba el rendimiento. Por eso, los procesadores modernos integran todos los niveles de caché principales dentro del propio encapsulado, logrando tiempos de acceso mucho más bajos.

Memoria caché L1: la más rápida y cercana

La caché L1 es el primer escalón que consulta cada núcleo. Es la memoria más rápida de todo el sistema y también la más pequeña. Sus latencias se miden típicamente por debajo del nanosegundo (en torno a 0,7-1 ns) y el ancho de banda efectivo puede alcanzar valores del orden de varios miles de GB/s en mediciones sintéticas.

Copia de Seguridad en Disco Duro Externo para Windows 10

Suele estar dividida en dos partes: L1 de datos (L1D) y L1 de instrucciones (L1I). La L1D almacena los datos que van a procesar las unidades aritméticas del núcleo (números, estructuras, etc.), mientras que la L1I guarda las instrucciones que indican qué operaciones realizar y en qué orden.

Cada núcleo físico dispone de sus propias L1D y L1I, sin compartirlas con otros núcleos. En procesadores actuales de escritorio es habitual encontrar, por núcleo, 32 KB de L1D y 32 o 64 KB de L1I. En total, en una CPU de 8 núcleos podríamos hablar de 512 KB o más de L1 combinada, aunque esa suma es un poco teórica, ya que cada núcleo solo ve su propio bloque.

El tamaño parece ridículo comparado con la RAM, pero precisamente por ser tan compacta se puede diseñar con latencias ultra bajas. Esto es vital: cada ciclo que se ahorra accediendo a L1 en lugar de a niveles inferiores se multiplica por los miles de millones de operaciones por segundo que ejecuta la CPU.

Memoria caché L2: equilibrio entre tamaño y rapidez

Un escalón por debajo encontramos la caché L2, que presenta un equilibrio interesante entre velocidad y capacidad. Es más lenta que L1, con latencias en el rango de 2-3 ns, pero bastante más grande: cada núcleo puede disponer de entre 256 KB y 1 MB o incluso varios MB de L2 según la arquitectura.

En los ejemplos reales, un procesador de gama media como un Intel Pentium G4560 incorpora 256 KB de L2 por núcleo, mientras que CPUs de servidor modernas como un AMD EPYC pueden llegar al megabyte de L2 por núcleo, acumulando decenas de MB de este nivel de caché.

Normalmente la L2 ya no se divide en instrucciones y datos, sino que actúa como una caché unificada que alimenta a la L1. Según el diseño, puede ser totalmente privada de cada núcleo o compartida dentro de pequeños grupos de núcleos (clusters), dependiendo de cómo el fabricante haya organizado la topología interna.

Su papel práctico es almacenar datos e instrucciones que no caben en L1 pero que siguen siendo de acceso frecuente. Así se reduce el número de veces que la CPU tiene que recurrir al nivel L3, más grande y lento.

Memoria caché L3 o LLC (Last Level Cache)

La caché L3 suele ser la de mayor tamaño en un procesador de escritorio o servidor y, salvo que exista L4, se considera la Last Level Cache (LLC), es decir, el último nivel de caché antes de tener que ir a la RAM. Por eso, cuando se habla de LLC en CPUs típicas de consumo, se está hablando casi siempre de la L3.

A diferencia de L1 y L2, que suelen estar ligadas a cada núcleo, la L3 se implementa como un espacio compartido entre varios núcleos, a veces entre todos los de la CPU y a veces por bloques (por ejemplo, grupos de 4 u 8 núcleos que comparten un segmento de L3). Su latencia ronda los 10 ns, más alta que L1 y L2 pero todavía muchísimo mejor que ir a la RAM.

En cifras, un procesador modesto puede tener 4-8 MB de L3, mientras que chips de gama alta y servidores llegan a tamaños espectaculares: 32 MB, 64 MB, 96 MB e incluso 384 MB de L3 en determinadas configuraciones de EPYC o Ryzen con caché apilada en 3D.

El objetivo de este nivel es ofrecer un gran “depósito” común donde almacenar datos e instrucciones que muchos núcleos van a reutilizar. Si algo está en L3, los núcleos pueden rescatarlo sin tener que acceder a la RAM, reduciendo latencias y tráfico por el bus de memoria principal.

Justo por esa posición estratégica, la LLC tiene un impacto enorme en ciertos escenarios, en especial en videojuegos y cargas de trabajo con patrones de acceso repetitivos, donde una caché L3 generosa puede mejorar tanto la media de FPS como, sobre todo, los mínimos del 1 % (esos tirones molestos que notamos incluso cuando el promedio parece alto).

Caché L4 y su relación con GPUs integradas

Aunque no es habitual en PCs de sobremesa, algunos procesadores han llegado a usar un nivel adicional de caché, la llamada L4. Suele ser una memoria mucho más grande que la L3 pero también notablemente más lenta, ubicada en un encapsulado aparte pero muy próximo a la CPU.

Un ejemplo clásico es el Intel Core i5-5775C, que además de sus 6 MB de L3 incluía 128 MB de eDRAM usados como caché L4, pensada principalmente para servir de buffer de alta velocidad a la GPU integrada Iris Pro 6200. De este modo, se mejoraba el ancho de banda disponible para gráficos sin depender tanto de la RAM del sistema.

En la actualidad, el concepto de L4 vuelve a la palestra porque Intel ha anunciado el uso de caché de último nivel adicional en algunas generaciones futuras, sobre todo cuando se integran GPU potentes en el mismo silicio. No deja de ser otra vuelta de tuerca a la idea de proporcionar más memoria rápida entre las unidades de cálculo y la RAM.

Top Level Cache vs Last Level Cache: en qué se diferencian

El término LLC (Last Level Cache) se asocia, como hemos visto, al último nivel de caché al que recurre la CPU antes de llegar a la RAM. En la mayoría de procesadores de escritorio esa LLC coincide con la L3, pero en chips con L4 la LLC sería precisamente la L4.

Por otro lado, hay ocasiones en documentación técnica o explicaciones informales donde se usa el concepto de Top Level Cache para referirse a la caché “superior” en la jerarquía, que según el contexto puede ser la más cercana o la más global. Para evitar confusiones, en arquitectura de CPU moderna se suele hablar estrictamente de L1, L2, L3, L4 y, cuando hace falta, de LLC.

¿Qué es el tipo de NAT Xbox One?

Lo importante de cara al usuario es recordar que, en un procesador actual de consumo, la caché L3 suele ser la Top Level Cache compartida entre núcleos y a la vez la Last Level Cache. Es la gran reserva común antes de tener que tocar la RAM, y por tanto la que más se intenta ampliar cuando se quiere rascar rendimiento extra sin rediseñar por completo la arquitectura.

En algunos diseños también se agrupan núcleos en bloques (por ejemplo, un CCD de 8 núcleos en Ryzen) y cada bloque tiene su propia porción de L3. En la práctica, esto significa que ciertos núcleos comparten caché L3 entre sí pero no con otros, lo que afecta a la latencia según qué núcleo ejecute qué tarea.

Cómo trabaja la caché: aciertos, fallos y latencia

Para entender el impacto real de la caché hay que fijarse en dos conceptos clave: la tasa de aciertos (hit rate) y la latencia de acceso. Cuanto mayor es la tasa de aciertos y más baja la latencia, menos tiempo pierde la CPU esperando datos.

Cuando la CPU necesita una instrucción o un dato, lanza la búsqueda empezando por L1. Si lo encuentra allí, el acceso se resuelve en un puñado de ciclos, prácticamente instantáneo. Si no está, se mira en L2; si tampoco, en L3. Cada salto hacia un nivel inferior añade algunos nanosegundos más de espera.

Si el dato no está en ninguna caché, la CPU debe recurrir a la RAM, que está fuera del chip y se comunica con él mediante el bus de memoria a través del socket y la placa base. Ahí las latencias pueden multiplicarse por 5, 7 o más respecto a L3, rondando sin problemas los 60-80 ns en plataformas modernas.

En pruebas reales, un procesador como el Ryzen 7 7700X puede mostrar valores aproximados como estos: 0,7 ns de latencia para L1, 2,7 ns para L2 y unos 10 ns para L3, frente a más de 70 ns de media para acceder a la RAM DDR5 a 6000 MT/s, incluso con buenas latencias CL.

Cuando se produce un fallo de caché y hay que ir a la RAM se habla de cache miss. Cada miss implica más ciclos de espera sin trabajo útil, por lo que un diseño de CPU eficiente intenta minimizar esos fallos mediante políticas de sustitución inteligentes y aumentando la cantidad de caché en los niveles donde más compensa.

Controlador de memoria, buses y flujo de datos

En las CPUs modernas, el antiguo “puente norte” de la placa base se ha integrado dentro del propio procesador como controlador de memoria integrado. Este componente es el que se encarga de gestionar el flujo de datos entre la RAM, las cachés y los núcleos.

Para comunicarse con la RAM y con las cachés se utilizan principalmente dos tipos de buses: el bus de datos, que transporta los valores e instrucciones en sí, y el bus de direcciones, a través del cual la CPU indica qué dirección de memoria quiere leer o escribir en cada momento.

Las instrucciones y datos se almacenan en la memoria en celdas identificadas por direcciones numéricas. Cuando la CPU necesita algo, primero emite la dirección por el bus correspondiente y, una vez localizada, los datos viajan por el bus de datos hacia la caché y el núcleo que los necesita.

El ancho de estos buses marca cuánto se puede transferir por ciclo: con un bus de 64 bits y memoria en doble canal (dual channel), la CPU puede mover el equivalente a 128 bits de datos por cada ciclo de reloj del controlador de memoria. Si la caché consigue retener buena parte de lo que se reutiliza con frecuencia, ese bus pasa menos tiempo saturado.

Es precisamente en escenarios de cache miss recurrentes donde un ancho de banda de RAM insuficiente o una latencia excesiva pueden convertirse en un cuello de botella, haciendo que los núcleos se queden desocupados esperando información fresca.

Scratchpad RAM vs caché automática

En algunas arquitecturas, además de las cachés automáticas, existe lo que se llama Scratchpad RAM, una pequeña región de memoria interna que el programador puede gestionar directamente, sin que intervengan las políticas de caché del procesador.

La diferencia fundamental es que la caché tradicional es totalmente gestionada por hardware. El sistema copia y expulsa bloques de datos en función de algoritmos internos (LRU, pseudo-LRU, etc.), y el programador apenas tiene control explícito más allá de ciertos consejos (hints) o instrucciones especiales muy concretas.

Una scratchpad, por el contrario, se comporta como una RAM controlada por software: el programa decide qué poner y qué quitar, y la caché no se asocia a ella. Esto puede ser muy potente en sistemas embebidos o consolas de videojuegos donde el código está muy afinado a la arquitectura, pero en PCs generalistas se recurre sobre todo a las cachés automáticas.

En el día a día de un usuario de escritorio la distinción apenas importa, pero a nivel de diseño de CPU es relevante para equilibrar rendimiento, complejidad de hardware y flexibilidad de programación.

Impacto de la caché y de la LLC en videojuegos y rendimiento real

En aplicaciones de ofimática, navegación web o tareas ligeras, la mayoría de CPUs modernas van sobradas y las diferencias de tamaño de caché no siempre se notan. Sin embargo, en videojuegos y algunas cargas de trabajo multimedia sí pueden marcar una diferencia muy clara.

Un ejemplo muy ilustrativo es la comparación entre el AMD Ryzen 7 5800X y su variante 5800X3D. Ambos comparten la misma arquitectura base y el mismo número de núcleos, pero el modelo 3D incorpora una caché L3 de 96 MB frente a los 32 MB del 5800X estándar, gracias al apilado 3D V-Cache sobre uno de los CCD.

Para poder alojar tanta caché adicional, el 5800X3D rebaja ligeramente sus frecuencias base y turbo, y además no permite overclocking convencional. Aun así, en juegos el aumento de rendimiento medio puede rondar el 15-20 % o incluso más en títulos especialmente sensibles a la caché.

En benchmarks de 40 o más juegos, se ve que esta enorme LLC adicional eleva aún más los FPS medios y, sobre todo, mejora de forma contundente los mínimos del 1 %, es decir, reduce la frecuencia e intensidad de esos pequeños parones que tanto se notan en experiencias como Microsoft Flight Simulator u otros mundos abiertos pesados. Si necesitas optimizar tu equipo para jugar, una configuración de PC gaming adecuada puede ayudar a sacar partido a una LLC grande.

¿Cuál es la diferencia entre Internet y Ethernet?

En cambio, en tareas de creación de contenido (render, edición de vídeo, productividad pesada) el impacto es mucho menor y, en algunos casos, incluso se pierde algo de rendimiento respecto al 5800X normal debido a las frecuencias algo más bajas y a que la caché no era el cuello de botella principal.

Diseños de caché en Intel y AMD, y el papel de los chiplets

La forma exacta en que se conectan los núcleos a la L3 y cómo se reparte la LLC influye también en la latencia y en el rendimiento. Intel ha usado históricamente diseños monolíticos donde todos los núcleos comparten un gran bloque de L3 con tiempos de acceso relativamente homogéneos.

Por su parte, las primeras generaciones de AMD Ryzen apostaron por arquitecturas MCM (Multi-Chip Module) con núcleos agrupados en complejos (CCX) donde cada grupo tenía su propio fragmento de L3. En Zen y Zen+, por ejemplo, un CCX de 4 núcleos compartía 8 o 16 MB de L3, pero el acceso entre CCX distintos implicaba más latencia.

Esto hacía que, en ciertos juegos y aplicaciones muy sensibles a la latencia de caché, los Ryzen de primera hornada quedaran algo por detrás de los Intel equivalentes, pese a tener buenas cifras de IPC. Con Zen 3 y Zen 4, AMD cambió el diseño para que los 8 núcleos de cada CCD compartan un bloque unificado de 32 MB de L3, reduciendo esa penalización.

La llegada de la 3D V-Cache supuso otro giro: sobre uno de los CCD se apila físicamente un chip extra de caché L3, duplicando o triplicando la LLC disponible para ese bloque concreto de núcleos. Así se alcanzan cifras como 96 MB de L3 en el Ryzen 7 7800X3D o 128 MB en el 7950X3D, que se han traducido en un dominio claro en rendimiento gaming.

Intel, por ahora, ha preferido centrarse más en mejorar la caché y el rendimiento de forma equilibrada en todos los niveles, sin apostar por un apilado tan agresivo centrado casi exclusivamente en juegos. No descarta incrementar el tamaño de la L3, pero su estrategia pasa por equilibrar mejor cargas de trabajo generales y no solo gaming puro.

Cómo saber cuánta caché (L1, L2, L3, LLC) tiene tu procesador

Si te pica la curiosidad por saber cuánta caché montan tu CPU y cuál es su organización, lo más sencillo es recurrir a herramientas de diagnóstico como CPU-Z. Este programa gratuito muestra en una pestaña específica el detalle de la caché L1, L2 y L3, indicando capacidad y forma de reparto por núcleo.

Otra opción es consultar la ficha técnica oficial del fabricante (Intel ARK, fichas de AMD, etc.), donde suelen reflejar la cantidad de L3 y L2 en megabytes, y en algunos casos la de L1. Muchas reviews de procesadores también incluyen tablas completas con estos datos y resultados de benchmarks específicos de memoria.

Si quieres profundizar, existen benchmarks como AIDA64 o similares que permiten medir latencias y anchos de banda efectivos de cada nivel de caché y de la RAM, lo que ayuda a entender en la práctica dónde se están yendo los nanosegundos en tu plataforma concreta. También puedes usar herramientas más completas como HWiNFO64 para monitorizar en detalle tu sistema.

Latencia, ancho de bus y falta de caché en la experiencia diaria

En un sistema bien dimensionado, el objetivo es que la caché “acerte” lo máximo posible y que la CPU apenas tenga que tocar la RAM para datos que se usan de forma continua. Cuando esto se cumple, el equipo se siente ágil, las ventanas responden al instante y los juegos mantienen una cadencia de frames estable.

Cuando la caché se queda corta o el patrón de acceso es muy irregular, los fallos de caché se disparan. Cada vez que la CPU debe ir a la RAM se paga una penalización de latencia importante: esas idas y venidas repetidas son las que, a ojos del usuario, se perciben como microparones, tirones o “lag” interno aunque la conexión a internet sea perfecta.

El ancho de banda de la memoria también entra en juego: con buses más anchos, frecuencias más altas y configuraciones dual o quad channel, se pueden transferir bloques de datos más grandes por unidad de tiempo, reduciendo la duración de cada acceso cuando hay que salir de la caché.

Aun así, por muy rápida que sea la RAM, nunca podrá competir con la caché en latencia pura. Por eso aumentar la cantidad de L2 y, sobre todo, de L3 (LLC) suele elevar la tasa de aciertos y suavizar la dependencia de la RAM, lo que hace que los núcleos estén más tiempo “trabajando” y menos “esperando”.

Un buen equilibrio entre frecuencia de CPU, tamaño de caché, arquitectura interna y velocidad/latencia de la RAM es lo que termina marcando la sensación de fluidez general del sistema, más allá de la cifra de GHz que aparezca en la caja.

Visto todo esto, se entiende mejor por qué la memoria caché, y muy en particular la LLC que suele coincidir con la L3, ha pasado de ser un detalle casi olvidado en las especificaciones a un factor decisivo en el diseño de procesadores modernos: sin ella, los núcleos pasarían buena parte del tiempo ociosos esperando a que los datos llegasen desde la RAM, mientras que con una jerarquía bien pensada de L1, L2, L3 (y en algunos casos L4) se consigue que millones de instrucciones por segundo fluyan con la menor fricción posible, algo que notas tanto al abrir un simple navegador como al exprimir al máximo un juego triple A.

Que es la memoria cache y para que sirve