Qué es UALink y por qué compite con NVLink

Inicio » Windows » Qué es UALink y cómo cambia la interconexión de aceleradores IA

UALink es un estándar abierto para interconectar hasta 1.024 aceleradores de IA con 200 Gbps por carril y semántica de memoria compartida.
Compite con NVLink de Nvidia ofreciendo menor dependencia de proveedor, gran escalabilidad de clúster y soporte multi‑fabricante.
CXL 4.0 complementa a UALink al permitir pools de memoria compartida de más de 100 TB con alta velocidad y despliegues multi‑rack.
El consorcio UALink reúne a AMD, Intel, Meta, Microsoft, Google, Apple y otros para impulsar un ecosistema de IA más abierto y eficiente.

Si trabajas con IA generativa, modelos fundacionales o clústeres de GPU, es cuestión de tiempo que empieces a oír hablar de UALink en todas partes. Este nuevo estándar abierto quiere ser la autopista que conecte cientos de aceleradores de distintos fabricantes sin obligarte a casarte con un único proveedor, algo que hoy pasa en gran medida con Nvidia y su ecosistema propietario.

La idea es sencilla de entender, aunque por debajo tenga bastante miga: UALink permite unir hasta 1.024 aceleradores en un mismo pod con un enlace de altísimo ancho de banda y baja latencia, pensado desde cero para cargas de trabajo de IA y HPC. Es la respuesta coordinada de AMD, Intel, Meta, Microsoft, Google, AWS, Apple, Cisco y muchos otros al dominio que Nvidia ha construido con NVLink y NVSwitch en centros de datos de todo el mundo.

Qué es UALink y por qué tantas empresas se han unido al consorcio

UALink, siglas de Ultra Accelerator Link, es una especificación de interconexión de alta velocidad pensada para que distintos aceleradores de IA (GPU, ASIC, TPU, etc.) y switches se comuniquen entre sí dentro de un mismo pod de cómputo. A diferencia de tecnologías propietarias como NVLink, UALink nace como estándar abierto gobernado por un consorcio industrial.

El UALink Consortium se comenzó a gestar en 2024, impulsado inicialmente por AMD, Broadcom, Cisco, Google, HPE, Intel, Meta y Microsoft. Más tarde se han ido sumando gigantes como AWS, Apple, Alibaba Cloud, Synopsys, Arteris y decenas de actores del ecosistema de centros de datos, EDA, IP y proveedores de nube, hasta superar holgadamente las 70 organizaciones implicadas.

La primera gran meta técnica es la especificación UALink 200G 1.0, que detalla cómo debe ser esa interconexión entre aceleradores y switches dentro de un pod de IA. Esta versión 1.0 habilita la conexión directa de hasta 1.024 aceleradores en un único fabric, con semántica de memoria compartida y operaciones directas de carga, almacenamiento y atómicas entre las memorias conectadas a los aceleradores.

Desde el punto de vista estratégico, el consorcio busca ofrecer una alternativa sólida a NVLink, NVSwitch e InfiniBand, que hoy concentran la mayor parte del mercado de clústeres de IA de muy alta gama. Al estandarizar la interfaz de interconexión, se pretende evitar el bloqueo de proveedor, facilitar la integración en centros de datos heterogéneos y repartir la inversión en I+D entre varios actores en lugar de dejar todo el control en manos de un único fabricante.

La estructura de gobierno del consorcio es la típica de un estándar abierto maduro: miembros promotores con asientos en la junta directiva, grupos de trabajo técnicos, especificaciones publicadas en fases y un calendario que apunta a que el hardware comercial compatible con UALink empiece a llegar a partir de 2025-2026, con despliegues a gran escala algo más adelante.

Detalles técnicos de UALink 200G 1.0: cómo funciona esta interconexión

En la práctica, UALink 200G 1.0 define un fabric de baja latencia y gran ancho de banda entre aceleradores y switches dentro de un pod de IA. Cada acelerador se conecta al switch UALink mediante varios enlaces, y cada switch asigna un puerto dedicado por acelerador para simplificar el encaminamiento.

La especificación 1.0 habla de 200 gigabits por segundo por carril, lo que en una configuración típica de cuatro carriles por acelerador se traduce en unos 800 GB/s efectivos de ancho de banda agregado. Los switches UALink utilizan identificadores de 10 bits para direccionar de forma precisa a cada acelerador dentro del fabric, lo que permite escalar hasta esos 1.024 dispositivos manteniendo un esquema de enrutado eficiente.

Uno de los puntos fuertes es que el protocolo está optimizando al máximo la eficiencia del enlace: las estimaciones del consorcio hablan de aprovechar alrededor del 93 % del ancho de banda teórico, gracias a un diseño que combina conceptos conocidos de Ethernet de alta velocidad con la latencia típica de soluciones sobre PCIe y enlaces dedicados entre chips.

A diferencia de redes puramente orientadas a mensajes, UALink ofrece un modelo de memoria compartida determinista. Los aceleradores pueden realizar operaciones de carga, almacenamiento y atómicas directamente sobre la memoria asociada a otros aceleradores dentro del pod, sin tener que pasar por la CPU ni por capas de software pesadas, lo que se traduce en menores latencias y un comportamiento mucho más predecible para algoritmos distribuidos.

Este enfoque lo hace especialmente atractivo para entrenamiento de grandes modelos de lenguaje (LLM), simulaciones de HPC y cargas de inferencia a gran escala donde se necesita que cientos de GPUs o ASICs compartan parámetros, activaciones o cachés de forma intensiva. La semántica de memoria coherente simplifica el software de orquestación y reduce la complejidad de las pilas de comunicaciones personalizadas.

¿Qué router se necesita para fibra óptica?

Comparación: UALink frente a NVLink e Infinity Fabric

Para entender el papel de UALink en el ecosistema, conviene compararlo con las tecnologías que dominan el mercado actual de interconexión de aceleradores, empezando por NVLink 4.0 y 5.0 de Nvidia y por el Infinity Fabric de AMD.

En su generación Hopper, NVLink 4.0 ofrece unos 900 GB/s por GPU con 18 enlaces por acelerador y permite agrupar hasta 256 GPUs. Con Blackwell y NVLink 5.0 se sube el listón: hasta 1,8 TB/s de ancho de banda por GPU, también con 18 enlaces, y una escala máxima de 576 GPUs interconectadas en configuraciones como los sistemas NVL72. Eso sí, todo dentro del ecosistema completamente propietario de Nvidia.

Por su parte, Infinity Fabric de AMD conecta hasta ocho GPUs MI300X o MI355X en una malla completamente interconectada. Cada tarjeta MI300X dispone de siete enlaces Infinity Fabric de 16 carriles cada uno, proporcionando alrededor de 1,075 TB/s de ancho de banda peer‑to‑peer. El problema llega cuando se quiere superar esas ocho GPUs, momento en el que hay que recurrir a redes Ethernet o a otras tecnologías externas, con el coste de latencia y complejidad asociado.

UALink 1.0 se sitúa en medio: ofrece unos 800 GB/s de ancho de banda por acelerador con cuatro enlaces, que es menos que los valores punta de NVLink 5.0 pero sigue siendo suficiente para muchas cargas de trabajo, y a cambio permite escalar hasta 1.024 aceleradores en un solo pod. La gran diferencia es que no está atado a un único proveedor: puede servir de base para productos de AMD, Intel, Astera Labs y otros, lo que abre la puerta a configuraciones mixtas.

En números gruesos, NVLink 5.0 tiene más de tres veces el ancho de banda por conexión que UALink 1.0, pero UALink casi duplica el tamaño máximo de clúster y aporta la ventaja de ser un estándar abierto e interoperable. Para muchos operadores de centros de datos, esa capacidad de elegir proveedor y evitar dependencias excesivas pesa tanto o más que exprimir el último gigabyte por segundo.

Filosofías de diseño: clústeres cerrados frente a arquitecturas abiertas

Más allá de las cifras, hay una diferencia de filosofía muy clara entre NVLink e Infinity Fabric frente a UALink. Nvidia ha optimizado su tecnología para clústeres GPU muy densos y homogéneos, con todos los componentes (GPUs, switches, software, librerías) bajo su control, como en los sistemas DGX o los racks NVL72, donde se llega a sumar más de 130 TB/s de ancho de banda agregado.

En esos entornos, el objetivo es apurar al máximo el rendimiento por nodo, sin preocuparse demasiado por la interoperabilidad con terceros. El resultado es espectacular en términos de rendimiento bruto, pero también crea un ecosistema fuertemente cerrado, donde cambiar de proveedor o integrar otros aceleradores es complicado y caro.

UALink, en cambio, se concibe desde el principio para arquitecturas modulares a escala de rack o multi‑rack, con la idea de que un mismo centro de datos pueda mezclar aceleradores de varios fabricantes, desplegar generaciones sucesivas de hardware y mantener todo ello conectado a través de un fabric común. Esto encaja muy bien con la estrategia de empresas como Google, Meta o Microsoft, que diseñan sus propios chips a la vez que colaboran con terceros.

AMD, por ejemplo, mantiene Infinity Fabric como interconexión interna de sus GPUs MI‑series, pero en su hoja de ruta aparecen tecnologías como AFL (Accelerated Fabric Link) sobre PCIe Gen7 y la adopción de UALink para escalar a pod completos y, a futuro, a soluciones más allá del rack. La idea es que Infinity Fabric siga siendo la malla interna de pocos aceleradores, mientras que UALink se ocupe de la comunicación entre muchos nodos dentro del mismo pod.

En ese contexto, UALink actúa como una especie de “lengua franca” de alto rendimiento para aceleradores, del mismo modo que CXL busca ser la referencia para memoria compartida y Ultra Ethernet para redes horizontales. Cada estándar cubre una parte del problema, y el objetivo es que todos ellos se complementen en lugar de pisarse.

UALink 1.0 en detalle: escalabilidad, eficiencia y calendario

La especificación UALink 1.0, también referida como UALink 200G 1.0, está orientada a solucionar uno de los grandes cuellos de botella actuales: cómo agrupar cientos o miles de aceleradores en un mismo sistema lógico sin que la interconexión se convierta en el talón de Aquiles.

Con la versión 1.0 se define un estándar que permite conectar hasta 1.024 aceleradores por pod, con enlaces de 200 Gbps por carril y un diseño de switches que soporta tráfico altamente paralelo. Cada acelerador dispone de accesos directos a la memoria de otros aceleradores del pod, lo que permite implementar esquemas de paralelismo de datos y de modelo de forma mucho más eficiente que con redes puramente basadas en mensajes sobre Ethernet.

El UALink Consortium se propuso tener la especificación 1.0 lista para empresas miembros en torno al tercer trimestre de 2024. A partir de ahí, los distintos fabricantes pueden empezar a diseñar GPUs, ASICs, tarjetas de aceleración y switches que hablen este protocolo. La expectativa es ver primer hardware comercial en 2025 y despliegues significativos a gran escala hacia 2026 y 2027, según las hojas de ruta de compañías como AMD, Intel y Astera Labs.

¿Cómo hacer goma casera para limpiar el teclado?

Mientras tanto, Nvidia seguirá liderando con NVLink y NVSwitch, pero cada nueva generación de infraestructuras de IA que se planifica a día de hoy ya tiene en cuenta que, cuando UALink madure, existirá una alternativa abierta con escalabilidad sin precedentes. Eso influye directamente en las decisiones de inversión a largo plazo de los grandes operadores de nube y de los hiperescalares.

En paralelo, los propios miembros del consorcio están impulsando tecnologías complementarias como Ultra Ethernet para competir con InfiniBand en interconexiones de red horizontales, o como CXL 4.0 para memoria compartida a través de racks. Todas ellas forman parte de la misma estrategia global: reducir la dependencia de un único proveedor y construir un ecosistema de IA más equilibrado.

CXL 4.0: el aliado de UALink para escalar la memoria

Cuando se habla de clústeres de IA gigantes, no basta con conectar aceleradores entre sí: la memoria se convierte en el otro gran cuello de botella. Los modelos de lenguaje más grandes necesitan terabytes de memoria sólo para las cachés de claves y valores durante la inferencia, y el entrenamiento de modelos fundacionales requiere todavía más para activaciones, gradientes y estados del optimizador.

En las arquitecturas tradicionales, la memoria está pegada físicamente a la CPU, lo que genera grandes cantidades de capacidad “varada” cuando algunas máquinas se quedan cortas y otras van sobradas. Ahí es donde entra CXL (Compute Express Link), un estándar que permite desacoplar memoria y cómputo, de modo que múltiples hosts puedan acceder a un mismo pool de memoria compartida con semántica similar a la RAM local.

El salto a CXL 4.0, anunciado en noviembre de 2025 durante Supercomputing, dobla la tasa de señalización respecto a CXL 3.0/3.1, pasando de 64 a 128 GT/s. Sobre un enlace x16 PCIe 7.0, esto se traduce en un ancho de banda de hasta 512 GB/s por dispositivo, frente a los 256 GB/s que se lograban con PCIe 6.0 y CXL 3.x. Además, se amplía el soporte de anchos de enlace con una nueva opción x2, pensada para despliegues de coste contenido y aplicaciones de borde.

Otra novedad clave es la introducción de puertos agrupados (port aggregation), que permiten combinar varios puertos físicos en una sola conexión lógica vista por el sistema como un único dispositivo. De esta forma es posible aumentar el ancho de banda efectivo sin complicar el modelo de programación, lo que resulta especialmente útil para grandes pools de memoria CXL que han de alimentar a muchos aceleradores.

Gracias a la posibilidad de usar hasta cuatro retimers en la ruta, CXL 4.0 deja de estar limitado a topologías de un solo rack, como ocurría con CXL 3.x. Ahora se contemplan despliegues multi‑rack donde la memoria puede extenderse a lo largo de varios armarios, incluso a través de pasillos completos del centro de datos, manteniendo unas latencias todavía razonables para muchas cargas de trabajo.

El resultado práctico es que CXL permite llegar a configuraciones con más de 100 terabytes de memoria conectados a una sola CPU, algo muy atractivo para organizaciones que procesan ingentes volúmenes de datos o que ejecutan modelos de IA inmensos, pero que no quieren sobreprovisionar memoria en cada servidor de forma independiente.

Rendimiento y eficiencia de la memoria compartida CXL

Las demostraciones realizadas en conferencias como CXL DevCon 2025 han mostrado de forma bastante clara las ventajas de esta aproximación. En una de ellas, dos servidores equipados con GPUs Nvidia H100 ejecutaban el modelo OPT‑6.7B accediendo a memoria remota a través de CXL, manteniendo semántica de memoria estándar.

Las mediciones situaban la latencia de acceso a memoria vía CXL en un rango de unos 200-500 nanosegundos, muy superior a la de la DRAM local pero tremendamente inferior a opciones como NVMe (en torno a 100 microsegundos) o soluciones de compartición de memoria sobre almacenamiento con latencias de más de 10 milisegundos. La diferencia de órdenes de magnitud es abrumadora.

Más allá de la latencia, los estudios de consumo apuntan a que CXL puede reducir el gasto energético de la memoria en torno a un 20-30 % en ciertos escenarios, al evitar sobredimensionar módulos en cada nodo y aprovechar mejor la capacidad total disponible en el centro de datos. En un contexto donde la factura eléctrica de la IA empieza a ser un problema de primer nivel, estas mejoras de eficiencia no son precisamente menores.

En conjunto, CXL 4.0 y UALink apuntan hacia una arquitectura donde la memoria y el cómputo se escalan de forma desacoplada pero coordinada: UALink concentra la comunicación de alta velocidad entre aceleradores dentro de un pod, mientras que CXL extiende un inmenso pool de memoria compartida más allá del rack. Para los equipos de infraestructura, esto abre la puerta a diseños mucho más flexibles de cara a la próxima oleada de modelos.

¿Cómo instalar Pluto televisión en una Smart TV?

UALink como movimiento político y de mercado contra Nvidia

Detrás de todos estos números técnicos hay una lectura de mercado que es imposible ignorar: UALink es, en buena medida, una respuesta coordinada al dominio de Nvidia en hardware de IA, interconexión y, en parte, también en redes de centros de datos.

Hoy Nvidia controla alrededor del 80 % del mercado de GPU para IA y tiene una posición muy fuerte en tecnologías de interconexión como NVLink, InfiniBand y soluciones Ethernet de muy alta gama. Sus sistemas llave en mano para IA se han convertido en casi un estándar de facto en muchas nubes y laboratorios, hasta el punto de que gigantes como Microsoft, Meta o Google han invertido miles de millones en GPUs Nvidia para sus proyectos.

Para estos mismos actores, depender en exceso de un único proveedor que además marca el ritmo de la industria y fija precios a su favor es un riesgo estratégico considerable. De ahí que empresas como AMD, Intel, Google, Meta, Microsoft, AWS o Apple estén apostando por desarrollar sus propios aceleradores y, al mismo tiempo, por apoyar estándares abiertos que pongan coto a la integración vertical de Nvidia.

UALink permite que proveedores distintos de Nvidia puedan ofrecer aceleradores compatibles con una misma interconexión. Eso da a las empresas de IA un abanico de opciones mucho más amplio para construir sus sistemas, elegir el mejor chip para cada tarea y negociar en mejores condiciones. No es casual que en el consorcio aparezcan nombres como TPU (Google), Gaudi (Intel), Maia y Cobalt (Microsoft) o MTIA (Meta), todos ellos candidatos a hablar UALink en el futuro.

Llama la atención la ausencia inicial de Nvidia y, en algunos momentos, de AWS entre los promotores. En el caso de Nvidia, tiene lógica: cuenta ya con NVLink e InfiniBand, lidera el mercado y no tiene grandes incentivos para diluir su ventaja competitiva compartiendo un estándar de interconexión que sus rivales podrían aprovechar. AWS, aunque sí aparece vinculada a UALink en otras informaciones, también está volcada en sus propios chips Trainium e Inferentia y mantiene una relación muy estrecha con Nvidia en el ámbito de la nube.

Los estándares abiertos de IA, como UALink o iniciativas previas de alianzas globales por una IA responsable y abierta, funcionan como mecanismos de contrapeso frente a posibles monopolios. Al compartir conocimiento, interfaces y buenas prácticas, se acelera la innovación a nivel de industria y se evita que un único actor capture todo el valor y dicte las reglas del juego sin oposición.

Participación de empresas clave: Apple, Alibaba, Arteris y otros

Uno de los movimientos más mediáticos alrededor de UALink ha sido la entrada de Apple en el consorcio con asiento en la junta directiva. Tradicionalmente, Apple ha optado por soluciones muy propietarias, incluida su aproximación a Apple Intelligence, que apuesta por procesar en el dispositivo y por una nube privada controlada al milímetro.

Que Apple decida sumarse a un estándar abierto para interconexión de aceleradores indica hasta qué punto la compañía ve en la IA a gran escala un terreno donde no puede ir completamente por libre. La presencia de Apple en la junta le permite influir en el diseño de UALink y asegurarse de que el estándar encaja con sus necesidades presentes y futuras en centros de datos.

La participación de compañías como Alibaba también tiene su lectura. En un contexto donde el desarrollo de IA extranjera en China está lleno de trabas, la existencia de un estándar común de interconexión podría facilitar colaboraciones entre actores chinos y occidentales para desplegar servicios de IA de forma más fluida, incluyendo iniciativas como llevar Apple Intelligence a mercados donde Apple necesita socios locales fuertes.

Por otro lado, empresas como Arteris, especializadas en tecnología de red en chip (NoC), han anunciado su incorporación a UALink aportando su experiencia en interconexiones dentro de SoCs de múltiples chiplets. Su IP y herramientas de automatización son clave para diseñar aceleradores capaces de exprimir al máximo UALink, conectando matriz tras matriz dentro de un mismo paquete y extendiendo después la comunicación a través del fabric del pod.

El resultado es un ecosistema donde no sólo participan los grandes nombres de la nube y los fabricantes de chips, sino también OEM de servidores, proveedores de IP, empresas de EDA y especialistas en redes, todos alineados en torno a la idea de construir una infraestructura de IA más abierta, escalable y eficiente.

Con todo este movimiento alrededor de UALink, CXL 4.0 y Ultra Ethernet se dibuja un futuro en el que los clústeres de IA dejarán de ser sinónimo exclusivo de Nvidia y pasarán a apoyarse en un conjunto de estándares abiertos que permitirán mezclar aceleradores, compartir memoria a escala de centro de datos y escalar los sistemas mucho más allá de lo que hoy es habitual, manteniendo a raya el bloqueo de proveedor y ampliando el margen de maniobra de quienes diseñan y operan la infraestructura.