- HBM4 duplica la interfaz hasta 2.048 bits, alcanza hasta 2 TB/s por pila y sienta el nuevo estándar JEDEC para memoria de alto ancho de banda.
- HBM4E estira ese diseño con velocidades de hasta 12–13 Gbps por pin y anchos de banda de alrededor de 3 TB/s por stack, mejorando a la vez la eficiencia energética.
- C‑HBM4E introduce bases lógicas personalizadas con controladoras, enlaces die‑to‑die e incluso cómputo cercano a la memoria, orientadas a cargas de IA y HPC de máximo nivel.
- Samsung, SK hynix y Micron compiten en plazos, rendimiento y personalización para dominar el suministro de HBM4/HBM4E en los grandes centros de datos de IA.
En apenas una década, la memoria de alto ancho de banda ha pasado de ser un experimento en unas pocas GPU a convertirse en el centro neurálgico de la IA, el HPC y los grandes centros de datos. HBM ya no es un complemento exótico, sino la pieza que marca hasta dónde puede escalar un acelerador moderno.
Con la llegada de HBM4, HBM4E y la variante personalizada C‑HBM4E, entramos en una fase en la que no solo suben las cifras de GB/s, sino que se replantea el propio diseño de la memoria: interfaces el doble de anchas, bases lógicas fabricadas en nodos avanzados, opciones de personalización y hasta cómputo cercano a la memoria. Vamos a desgranar con calma qué cambia exactamente en cada estándar, qué promete cada fabricante y por qué esto es tan importante para la IA generativa y el cómputo de alto rendimiento.
De GDDR y HBM3 a HBM4: por qué hacía falta un salto mayor
Las tarjetas gráficas domésticas siguen tirando de memoria GDDR (GDDR6, GDDR6X y próximamente GDDR7), que podemos ver como la “RAM específica” de la GPU, optimizada para ancho de banda alto a coste contenido. Esta memoria funciona genial para juegos y uso general, pero empieza a quedarse corta cuando hablamos de entrenar modelos de billones de parámetros.
En el mundo profesional, especialmente en IA y HPC, la película es otra: aquí manda HBM. HBM se basa en apilar en 3D varios chips de DRAM unidos por TSV (Through‑Silicon Vias) sobre un die base y colocarlos muy cerca del procesador mediante un interposer de silicio. El resultado es un ancho de banda brutal con un consumo por bit mucho menor que el de GDDR.
HBM3 y su evolución HBM3E han sido la base de generaciones como NVIDIA Hopper y Blackwell o aceleradoras tipo AMD Instinct. Una pila de HBM3 estándar ofrece una interfaz de 1.024 bits, velocidades de hasta 6,4 Gbps por pin y unos 819 GB/s de ancho de banda por stack. HBM3E sube algo más las frecuencias, pero el techo físico empezaba a notarse.
La presión de la IA generativa y los grandes LLM ha dejado claro que hacía falta un cambio más radical: doblar la interfaz, subir más la velocidad por pin y mejorar de verdad la eficiencia energética. Ahí es donde entra HBM4 como nuevo estándar JEDEC, y sobre ella se construyen HBM4E y C‑HBM4E.
HBM4 (JEDEC): el nuevo estándar, interfaz doble y hasta 2 TB/s por pila
HBM4 es la cuarta generación “oficial” aprobada por JEDEC y supone un salto estructural respecto a HBM3/E: la interfaz por pila pasa de 1.024 a 2.048 bits. Esto significa, literalmente, el doble de pines de entrada/salida por stack y, por tanto, el doble de caudal potencial a igualdad de frecuencia.
Según las especificaciones JEDEC y la información mostrada por fabricantes y casas de IP, HBM4 establece un objetivo base de 8 Gbps por pin. Con una interfaz de 2.048 bits, eso se traduce en hasta 2 TB/s de ancho de banda por pila de memoria. Sin embargo, la realidad industrial ya va varios pasos por delante: controladoras y PHY de empresas como Rambus, Cadence o GUC están apuntando a velocidades de 10-12 Gbps por pin para tener margen operativo.
De hecho, se habla de stacks HBM4 operando a 12 Gbps, lo que permitiría a una única pila alcanzar unos 2 TB/s reales y a un acelerador con ocho stacks acercarse a los 16 TB/s de ancho de banda agregado. Para workloads de IA, donde todo son accesos paralelos y streaming de tensores enormes, esto es oro puro.
HBM4 no solo ensancha la autopista de datos; también duplica la concurrencia interna: cada stack pasa a tener 32 canales independientes (divididos en 64 pseudo‑canales), reduciendo conflictos de banco y mejorando la eficiencia cuando hay muchos accesos paralelos desordenados, como ocurre al entrenar y servir LLM con contextos largos, similar a los retos de sistemas de memoria 12‑channel y 16‑channel.
En cuanto a capacidad, HBM4 admite dispositivos DRAM de 24 Gb y 32 Gb y configuraciones de 4‑Hi, 8‑Hi, 12‑Hi y 16‑Hi, lo que permite llegar hasta 64 GB por pila. Eso hace factible montar aceleradores con medio terabyte o más de HBM4, una base sólida para futuras generaciones de modelos gigantes.
En el plano eléctrico, el estándar amplía las opciones de voltaje: los fabricantes pueden jugar con VDDQ entre ~0,68 y ~0,96 V y VDDC alrededor de 1,0-1,07 V para binar productos orientados a eficiencia o a frecuencia, manteniendo compatibilidad. Además, HBM4 integra funciones de fiabilidad y seguridad avanzadas como DRFM (Directed Refresh Management) para mitigar ataques tipo row‑hammer, mejoras RAS y capacidades de diagnóstico.
Uno de los grandes cambios de HBM4 está en su “zapato”: el die base. Gestionar 2.048 líneas de E/S con DRAM convencional sería una pesadilla de enrutado, así que Micron, Samsung y SK hynix han colaborado con TSMC para fabricar las bases HBM4 con procesos lógicos como 12FFC o incluso N5. Esto permite densidades mayores, menor voltaje y mejor eficiencia que las bases fabricadas en nodos DRAM clásicos.
Esa mejora trae peaje: las controladoras y PHY de HBM4 son más complejas y grandes que las de HBM3E (del orden de 15 mm² frente a unos 11 mm² en datos de GUC), y el subsistema completo de memoria consume más energía absoluta. Sin embargo, si miramos rendimiento por vatio y por milímetro cuadrado, el salto de eficiencia global es considerable porque el ancho de banda se dispara.
HBM4E: más velocidad, hasta 3 TB/s por pila y foco en IA
Sobre la base de HBM4 aparece HBM4E, a menudo llamada “HBM4 Extended”. Esta variante no cambia la arquitectura fundamental (sigue siendo una interfaz de 2.048 bits y 32 canales), pero lleva la señalización bastante más allá de lo fijado en el estándar inicial, con el claro objetivo de alimentar la siguiente oleada de GPU de IA y aceleradores dedicados.
Los datos que han ido soltando fabricantes y proveedores de IP apuntan a velocidades de hasta 12-12,8 Gbps por pin para HBM4E estándar, lo que supone un ancho de banda agregado por stack en la franja de 1,6-2,0 TB/s según configuración. Algunas presentaciones hablan directamente de unos 3 TB/s por pila en los casos más extremos, lo que significaría multiplicar por unas 2,5 veces el ancho de banda de HBM3E.
En términos de eficiencia, HBM4E mejora sensiblemente respecto a HBM3/HBM3E: el consumo por bit transferido, que en HBM3 rondaba los 5-7 pJ/bit, cae en HBM4E al entorno de 3,5-5 pJ/bit. Frente a GDDR7 (que se moverá alrededor de los 10 pJ/bit), esta diferencia es enorme y marca por qué los grandes data centers se están volcando en HBM pese a su precio.
Una de las claves de esta nueva generación es el uso extendido de hybrid bonding Cu-Cu en lugar de micro‑bumps tradicionales para interconectar las capas DRAM y la base lógica. Esta técnica reduce resistencia y capacitancia entre capas, mejora la integridad de señal, permite más TSV y favorece stacks de hasta 16 dies DRAM más un die base sin disparar los problemas térmicos y eléctricos.
HBM4E también introduce topologías PHY optimizadas para distancias extremadamente cortas (sub‑1 mm), lo que facilita mantener márgenes de señal razonables a frecuencias por encima de 10 Gbps sin que el consumo se dispare. Además, la granularidad de acceso se refina con más sub‑canales independientes, lo que se traduce en una mejor utilización del bus en cargas muy fragmentadas típicas de IA y HPC.
Todo esto posiciona a HBM4E como la memoria de referencia para arquitecturas orientadas a IA generativa, entrenamiento de LLM de gran tamaño, inferencia de alto throughput y simulaciones científicas masivas que chocan de frente con el muro de la memoria y del ancho de banda.
Samsung, HBM4E y la carrera por llegar a los 3,25-3,5 TB/s
Samsung ha sido especialmente agresiva con su hoja de ruta para HBM4 y HBM4E. En el OCP Global Summit 2025 la compañía puso cifras concretas encima de la mesa: para HBM4E se marca como objetivo un ancho de banda de 3,25 TB/s por pila, con una velocidad mínima de 13 Gbps por pin sobre 2.048 pines de E/S. Esto supone unos 2,5× más caudal que HBM3E y una mejora energética superior al doble frente a los ~3,9 pJ/bit de la generación actual.
La producción en masa de estas HBM4E de séptima generación se sitúa en el calendario de 2027, alineada con las futuras oleadas de GPU de IA y aceleradores de grandes compañías. La propia Samsung reconoce que este salto llega empujado por clientes como NVIDIA, que reclamaban más de 10 Gbps por pin para sus GPU Vera Rubin. De hecho, la meta original de HBM4 (8 Gbps) se revisó a 10 Gbps, y posteriormente Samsung y SK hynix anunciaron que subirían a 11 Gbps, con Micron uniéndose a esa cifra para satisfacer a su gran cliente de IA.
Más allá de la velocidad, Samsung asegura que su HBM4E ofrecerá una eficiencia energética más de 2× mejor que HBM3E, algo crítico en un escenario donde el coste eléctrico y la refrigeración mandan en el TCO de los centros de datos. Menos pJ/bit implica menos calor, mayor densidad de cómputo por rack y, en definitiva, más tokens procesados por vatio.
Para soportar esta escalada, Samsung está reforzando su capacidad industrial. Informes sectoriales apuntan a que la compañía ha adquirido múltiples sistemas EUV High‑NA de última generación de ASML, dedicando varios de ellos exclusivamente a memoria. El objetivo es construir prácticamente una línea de producción orientada a HBM, capaz de escalar volumen de HBM4, HBM4E e incluso preparar el camino hacia HBM5.
Actualmente, la planta de Pyeongtaek produce unas 300.000 obleas mensuales y se aproxima a su límite, por lo que parte de las nuevas herramientas podría reforzar la fábrica de Taylor (Texas) en función de la demanda de clientes norteamericanos. Todo esto se enmarca en una carrera muy apretada donde SK hynix mantiene el liderazgo efectivo suministrando HBM3 y HBM3E a NVIDIA, y Samsung quiere recuperar el “trono” con HBM4E.
En paralelo, Samsung ha aprovechado sus eventos para enseñar otras piezas de su ecosistema: su futuro LPDDR6 con 10,7 Gbps por pin y 114,1 GB/s de ancho de banda (un 20 % más eficiente que LPDDR5X), y la madurez de su nodo de 2 nm (SF2), cuya producción en volumen debería arrancar a finales de 2025. También ha detallado colaboraciones como la de Rebellions y su Rebel‑CPU con núcleos ARM Neoverse V3 y NPU en procesos SF2/SF4X, evidenciando que quiere controlar desde la memoria hasta la lógica de IA.
SK hynix, Micron y el papel de HBM4/HBM4E en su hoja de ruta
SK hynix, líder actual en suministros de HBM3/HBM3E para NVIDIA Blackwell, ha presentado en su SK AI Summit 2025 la hoja de ruta más ambiciosa que se recuerda en memoria, con dos etapas claras: 2026-2028, despliegue de HBM4/HBM4E y LPDDR6; y 2029-2031, llegada de HBM5/HBM5E, DDR6 y GDDR7‑Next, además de saltos importantes en NAND y SSD.
En el bloque HBM, SK hynix planea ofrecer HBM4 estándar en configuraciones de hasta 16‑Hi y posteriormente HBM4E en 8/12/16‑Hi, tanto en versiones estándar como en variantes “custom” para grandes clientes de IA y supercomputación. Su mensaje es claro: no basta con seguir el estándar, hay que co‑diseñar memoria y cómputo para reducir consumo en interfaces y liberar más área de silicio para núcleos.
En esa línea, SK hynix ha comparado el diseño de HBM estándar frente a HBM personalizada. En el esquema clásico, buena parte de la lógica de interfaz (controladora, PHY) se reparte entre el die base del HBM y el propio SoC o GPU. En la aproximación “Custom HBM”, más funciones se integran dentro de la base de HBM, de forma que el procesador solo necesita un PHY die‑to‑die relativamente ligero. Resultado: menor consumo en el camino de E/S y más área disponible para núcleos de cómputo en el chip anfitrión.
Micron, por su parte, ha anunciado sus planes para HBM4 y HBM4E con un giro interesante: ofrecerá HBM4E con base lógica personalizable. La idea es que determinados clientes puedan encargar bases hechas en nodos avanzados de TSMC, con más caché o lógica específica (por ejemplo, para IA, HPC, redes, funciones ECC avanzadas o caminos de transferencia memoria‑a‑memoria). Según su CEO, Sanjay Mehrotra, esta opción de personalización cambiará el modelo de negocio de la memoria, abriendo la puerta a soluciones casi “a medida”.
En lo puramente técnico, Micron ha detallado que sus HBM4 utilizarán DRAM fabricada en su proceso 1β (quinta generación de 10 nm en DRAM), sobre una base de 2.048 bits de ancho y velocidades de hasta 6,4 GT/s, para un máximo de 1,64 TB/s por pila. Estas memorias apuntan a futuras aceleradoras como NVIDIA Vera Rubin o AMD Instinct MI400. Mientras tanto, Micron sigue enviando HBM3E de 8‑Hi para NVIDIA Blackwell y probando configuraciones de 12‑Hi.
De cara a 2029-2031, SK hynix prevé dar el salto a HBM5 y HBM5E, DDR6, GDDR7‑Next y 3D DRAM, mientras en NAND prepara SSD PCIe 7.0 y NAND 4D con más de 400 capas. Todo ello bajo paraguas conceptuales como AI‑D (AI‑DRAM) y AI‑N (AI‑NAND/Storage Next), que agrupan memorias y almacenamiento “conscientes de la carga de IA”, optimizando rendimiento, ancho de banda o densidad según el uso.
C‑HBM4E: la rama personalizada, con lógica y cómputo cercano a la memoria
La verdadera revolución conceptual llega con C‑HBM4E, la rama “custom” de HBM4E. A gran escala, podemos describir C‑HBM4E como una pila HBM4E con chips DRAM estándar JEDEC pero con un die base personalizado. Ese die base puede fabricarse en nodos lógicos tan avanzados como N3P de TSMC, y ahí es donde empieza el juego.
En la aproximación más conservadora, el die base mantiene una interfaz HBM4E estándar hacia el exterior, pero integra lógica adicional y/o cachés interiores que mejoran prestaciones sin tocar el protocolo. Mientras el software y la controladora vean una HBM4E “normal”, la pila puede ofrecer menor latencia efectiva o mejor aprovechamiento interno, por ejemplo, con buffers inteligentes o motores de prefetch.
La opción más ambiciosa, tal y como la describen TSMC y Rambus, es colocar en el die base la propia controladora HBM4E y una interfaz die‑to‑die (D2D) personalizada. En vez de llevar un bus enorme de 2.048 bits hasta el SoC, se utiliza un enlace interno optimizado que reduce drásticamente el número de pistas entre el procesador y la HBM. Con ello, cada pila consume muchos menos pines del SoC, permitiendo conectar más stacks en el mismo encapsulado o simplificar el packaging.
Gracias al uso de N3P, cabe en ese die base no solo la controladora y el PHY D2D, sino también bloques de lógica adicionales. Institutos como KAIST ya han mostrado propuestas para integrar procesadores de “near‑memory compute” (NMC) directamente en la base de C‑HBM4E, convirtiendo de facto cada stack en una especie de SoC sencillo con capacidad de cómputo propia.
Si ese cómputo cercano a la memoria se adopta de forma masiva, podríamos ver C‑HBM4E haciendo operaciones de reducción, búsquedas, filtrado o cierto pre‑procesado directamente “junto a los datos”, minimizando movimientos de información a través del tejido de interconexión. Es un cambio de paradigma: la memoria deja de ser un mero almacén y pasa a tener inteligencia propia incrustada.
Eso sí, nada de esto funcionará sin cambios profundos en el software. Los runtimes, compiladores, drivers y sistemas operativos tendrán que volverse topología‑conscientes y memoria‑conscientes. En lugar de tratar C‑HBM4E como un simple espacio de memoria plana, deberán entender su estructura de bancos, canales y unidades de ejecución internas para programar el trabajo “donde están los datos” y no moverlos de un lado a otro sin necesidad.
Harán falta extensiones en los modelos de programación para explotar ejecución en memoria y jerarquías de memoria múltiples, así como soporte del sistema operativo para dominios de memoria heterogéneos, con latencias no uniformes y coherencia asimétrica. También serán clave nuevas herramientas de perfilado capaces de observar lo que ocurre “dentro” de la memoria, no solo en CPU y GPU.
Impacto en IA, HPC, gaming y centros de datos
La combinación de HBM4, HBM4E y C‑HBM4E va a cambiar el paisaje de varias industrias a la vez. En IA generativa y entrenamiento de grandes modelos, más ancho de banda por pila significa menos tiempo de espera entre GPU y datos, más tokens procesados por segundo y menor coste por token a escala de datacenter. También facilita alojar modelos más grandes en una sola GPU, reduciendo particionados complicados.
Para inferencia masiva, especialmente en servicios con millones de peticiones concurrentes, aumentar el ancho de banda efectivo por nodo y bajar la energía por bit se traduce en menor latencia y mayor throughput por rack. Aquí HBM4E y, a medio plazo, HBM5 serán claves, junto a nuevas formas de almacenamiento como High Bandwidth Flash (HBF) con TSV que SK hynix está explorando para acercar el rendimiento de la NAND a las necesidades de IA.
En HPC, simulaciones científicas y cargas vectoriales masivas llevan años chocando con el “muro de memoria”. HBM4 y sus sucesoras permitirán alimentar más unidades vectoriales y matriciales sin que la memoria sea el cuello de botella. Además, si C‑HBM4E y futuras variantes integran cómputo, algunas operaciones podrán ejecutarse directamente junto a los datos, reduciendo el tráfico por los enlaces internos.
En el ecosistema de PC y gaming, los efectos serán indirectos pero inevitables: mientras el alto de gama profesional se mueve hacia HBM4E/HBM5, el mundo de consumo recibirá tecnologías derivadas como GDDR7‑Next y DDR6, así como DRAM 3D apilada, que heredarán muchas optimizaciones pensadas originalmente para IA.
Por último, en móviles y edge, la evolución hacia LPDDR6 y UFS 6.0, combinadas con variantes de DRAM con procesamiento en memoria (LPDDR6‑PIM) y NAND optimizada para IA (familias AI‑N), permitirá llevar inferencia avanzada fuera del data center, con requisitos estrictos de consumo y temperatura.
Mirando el conjunto, HBM4 marca el nuevo suelo sobre el que se apoya la memoria de alto ancho de banda, HBM4E empuja los límites eléctricos y de eficiencia para la década de la IA, y C‑HBM4E abre la puerta a que la memoria deje de ser un componente pasivo para convertirse en un elemento programable y especializado, estrechamente acoplado al cómputo. Quien consiga dominar este triángulo entre 2026 y 2031 no solo venderá más chips de memoria: tendrá en su mano condicionar cómo se diseñan las próximas generaciones de GPU, aceleradores y sistemas completos.