Unigen Amaretti AI Module: características y usos en IA local

PCHardwarePro » Windows » Características y usos del Unigen Amaretti AI Module para IA local

Módulo de IA en formato E1.S compatible con M.2, basado en el acelerador SAKURA-II, con hasta 60 TOPS en INT8 y 30 TFLOPS en BF16.
Incluye hasta 32 GB de LPDDR4x con 68 GB/s de ancho de banda, permitiendo ejecutar LLM de hasta 20.000 millones de parámetros en local.
Consumo aproximado de 10 W, disipador pasivo integrado y posibilidad de instalar varios módulos en paralelo aprovechando ranuras M.2 libres.
Compatible con TensorFlow, PyTorch, ONNX y Hugging Face, e integrado en la estrategia de edge AI y GenAI de Unigen para entornos on-premises.

La irrupción de la inteligencia artificial local en el PC de casa está cambiando por completo el panorama del hardware. Hasta hace nada, si querías trastear con modelos grandes de lenguaje (LLM) en tu equipo, lo normal era tirar de la GPU o, en el mejor de los casos, de un acelerador dedicado en formato tarjeta PCIe. Ahora empiezan a aparecer soluciones mucho más compactas y eficientes que caben directamente en un zócalo M.2 o E1.S, igual que un SSD convencional.

Dentro de esta nueva ola de dispositivos destaca el Unigen Amaretti AI Module, un módulo de IA con forma de unidad de estado sólido que se enchufa en un slot M.2 o E1.S estándar y convierte cualquier PC compatible en una pequeña máquina de inferencia de IA. No hablamos de una solución para centros de datos lejanos, sino de un acelerador pensado para que tú, con tu sobremesa o portátil con ranuras M.2 libres, puedas ejecutar agentes de IA locales y modelos generativos sin depender de la nube.

Qué es el Unigen Amaretti AI Module y por qué es diferente

El Unigen Amaretti AI Module es, en esencia, un módulo de aceleración de IA en formato E1.S compatible con zócalos M.2 que se presenta con la apariencia de un SSD corriente, pero que en realidad integra un potente chip especializado en inferencia. Esta propuesta se enmarca en la apuesta de Unigen por acercar la IA de borde (edge AI) y la IA generativa a entornos cotidianos, desde ordenadores personales hasta pequeños servidores locales.

La clave del Amaretti es que ejecuta la carga de trabajo de IA de forma totalmente independiente del resto del hardware. En otras palabras, ya no tienes que reservar tu GPU principal o saturar el procesador para correr modelos de lenguaje o flujos de IA generativa: todo el procesamiento se realiza dentro del propio módulo, liberando recursos del sistema y permitiendo usar la gráfica para lo que quieras, ya sean juegos, edición de vídeo u otras tareas.

Esta independencia lo diferencia de las soluciones clásicas basadas en GPU, que suelen implicar consumos desorbitados y un coste muy alto, además de estar más enfocadas a centros de datos que a usuarios finales. Con el Amaretti, Unigen pone el foco claramente en el consumidor de a pie y en pequeñas empresas que quieren tener IA en local sin montar una gran infraestructura.

Además, la elección del formato E1.S compatible con M.2 no es casual: muchos PCs de sobremesa, estaciones de trabajo e incluso portátiles cuentan hoy en día con ranuras M.2 libres «muertas de risa» que no se usan, como muestra nuestra guía para montar tu PC. Unigen aprovecha precisamente ese espacio disponible para proporcionar un acelerador compacto, enchufable y escalable simplemente añadiendo más módulos si la placa base lo permite.

Arquitectura interna: el acelerador SAKURA-II y su NPU

En el corazón del Unigen Amaretti AI Module se encuentra el acelerador de IA SAKURA-II de EdgeCortix, un chip diseñado específicamente para ofrecer un alto rendimiento en inferencia de IA con un consumo muy contenido. SAKURA-II nació con la idea de alimentar plataformas de bajo consumo, como pequeños servidores edge, gateways e incluso dispositivos como Raspberry Pi 5 y otros sistemas ARM, y ahora Unigen lo integra en un módulo de tipo SSD para el mercado PC.

Este chip incorpora una NPU (Neural Processing Unit) capaz de entregar hasta 60 TOPS en precisión INT8, orientada a inferencia eficiente de redes neuronales, junto con un rendimiento de hasta 30 TFLOPS en formato BF16, una precisión muy utilizada en cargas de trabajo de IA modernas. Gracias a esta combinación, el módulo puede manejar desde redes convolucionales clásicas para visión artificial hasta modelos de lenguaje de gran tamaño optimizados para inferencia.

A nivel de memoria interna, el SAKURA-II integra 20 MB de SRAM on-chip, que actúan como una caché de alta velocidad para reducir la latencia de acceso a los datos más utilizados durante la inferencia. Junto a ello, el chip soporta un controlador de memoria LPDDR4x dual de 64 bits, que en el caso del Amaretti se aprovecha con módulos de hasta 32 GB de capacidad, proporcionando un ancho de banda muy elevado.

¿Cómo funciona el brillo automático en las pantallas?

Todo este conjunto se encapsula en un paquete BGA de 19 x 19 mm que suele moverse en la franja de 8-10 W de consumo dependiendo de la carga de trabajo. Esta compacidad y eficiencia energética son las que permiten a Unigen montar el acelerador en un PCB de E1.S sin necesidad de una solución de refrigeración extrema, manteniendo un formato muy cercano al de un SSD de alto rendimiento.

Memoria, ancho de banda y capacidad para LLM

Uno de los puntos fuertes del Unigen Amaretti AI Module es su configuración de memoria. El dispositivo se ofrece en dos variantes, con 16 GB o 32 GB de LPDDR4x, alcanzando un ancho de banda de hasta 68 GB/s. Esta cifra es especialmente relevante cuando hablamos de modelos de lenguaje de gran tamaño, que requieren no solo capacidad bruta, sino un flujo de datos constante y rápido.

Gracias a esta combinación de capacidad y ancho de banda, el módulo es capaz de ejecutar modelos de lenguaje de hasta 20.000 millones de parámetros de forma local. Para un usuario doméstico o una pequeña empresa, esto abre la puerta a utilizar LLMs de gama media-alta en su propio hardware, sin subir datos sensibles a servicios en la nube y con una latencia muy reducida.

Este nivel de soporte lo hace especialmente atractivo para flujos de trabajo de IA generativa (GenAI) y agentes de IA locales. Modelos para chat conversacional, asistentes contextuales integrados en herramientas de productividad, generación de código o análisis de documentos extensos se pueden correr directamente sobre el Amaretti, siempre que estén ajustados a la ventana de contexto y al tamaño de modelo compatible.

La variante de 16 GB se plantea como una opción más económica para quienes no necesitan exprimir al máximo el soporte de modelos de 20B parámetros, pero aun así requieren un acelerador competente para modelos más compactos o tareas de visión y clasificación. En cambio, la de 32 GB es la elección ideal para quienes quieran acercarse al límite de lo que permite el módulo en términos de complejidad de modelos.

Consumo energético y eficiencia: hasta 60 TOPS en 10 W

Otro aspecto clave del Unigen Amaretti AI Module es su perfil de consumo. El conjunto del módulo, incluyendo el SAKURA-II y la memoria LPDDR4x, está dimensionado para un TDP aproximado de 10 W. Esto implica que, en condiciones normales, el dispositivo se mantiene en un rango de potencia muy razonable, especialmente comparado con GPUs dedicadas de IA que fácilmente superan los 150-300 W.

Si tenemos en cuenta que el chip ofrece hasta 60 TOPS de rendimiento en INT8, la relación rendimiento por vatio es de alrededor de 6 TOPS por cada vatio consumido. Esta métrica coloca al Amaretti en una posición muy competitiva para tareas de inferencia donde lo que importa es el coste energético sostenido y la posibilidad de desplegar muchos módulos en un mismo sistema sin disparar el consumo ni la disipación térmica.

Unigen equipa el módulo con su propio disipador pasivo de serie, pensado para garantizar que las temperaturas se mantengan bajo control en chasis bien ventilados. Al tratarse de un formato similar a un SSD E1.S, la integración en bahías ya existentes de servidores o en ranuras M.2 de placas base de sobremesa resulta relativamente sencilla, siempre que el flujo de aire sea el adecuado.

Este enfoque de bajo consumo encaja muy bien con la filosofía de edge computing y con el despliegue de IA en entornos donde no es viable tener grandes tarjetas gráficas, como pequeñas cajas industriales, equipos compactos, portátiles avanzados o nodos distribuidos que funcionen 24/7 con limitaciones de energía o de refrigeración.

Escalabilidad: varios módulos en paralelo y configuraciones avanzadas

Una de las ventajas más interesantes del Amaretti es que los módulos se pueden instalar de forma apilada en serie si la placa base dispone de varios zócalos M.2. Esto permite sumar capacidad de inferencia simplemente añadiendo más unidades, de manera similar a cómo se agregan GPUs en un servidor, pero con un consumo y un espacio mucho más contenidos.

¿Cómo arreglar el controlador de una impresora?

En un PC de sobremesa con varios M.2 disponibles, un usuario podría montar dos o tres Amaretti para aumentar la potencia de inferencia total y repartir cargas de trabajo entre diferentes agentes de IA, modelos especializados o servicios concurrentes, monitorizando su rendimiento con un dashboard de telemetría local. Esta modularidad encaja muy bien con entornos de pruebas, laboratorios de desarrollo o pequeñas empresas que necesitan escalar de forma incremental.

Más allá del ámbito doméstico, EdgeCortix ofrece configuraciones de gama más alta en formato tarjeta PCIe con dos chips SAKURA-II y funciones adicionales para servidores, lo que indica que la arquitectura es escalable desde módulos compactos hasta soluciones para racks completos. Unigen, de hecho, está alineando su catálogo para cubrir desde pequeños gateways de borde hasta racks completos para IA on-premises en centros de datos.

Esta visión modular se complementa con otros productos de la propia Unigen, como los módulos Biscotti (E1.S) y Poptart (E3.S) basados en procesadores Hailo-8, enfocados principalmente a visión artificial y aplicaciones de deep learning de tipo visual. Aunque son productos diferentes al Amaretti, encajan en la misma estrategia de ofrecer piezas plug-and-play que se puedan ampliar y sustituir fácilmente.

Compatibilidad con frameworks y entorno de desarrollo

Para que un acelerador de IA tenga sentido en entornos reales, no basta con la potencia bruta: resulta fundamental que sea compatible con los principales frameworks de IA y cuente con un ecosistema de software razonablemente maduro. En este sentido, Unigen y EdgeCortix han trabajado para que el Amaretti se integre con las herramientas más habituales en el día a día de desarrolladores e investigadores.

El módulo es compatible con TensorFlow, PyTorch, ONNX y Hugging Face, lo que facilita portar modelos preentrenados y aprovechar repositorios públicos sin necesidad de rehacer el trabajo desde cero. El soporte de ONNX, además, simplifica la conversión de modelos entre frameworks diferentes y su optimización para la NPU SAKURA-II.

Al estar orientado principalmente a inferencia, el flujo típico consistirá en entrenar el modelo en una GPU u otra plataforma potente y posteriormente exportarlo, cuantizarlo u optimizarlo para ejecutarlo en el Amaretti. EdgeCortix proporciona sus propias herramientas de compilación y optimización para adaptar redes neuronales a su NPU, maximizando el aprovechamiento de los 60 TOPS disponibles.

Este tipo de integración permite que tanto desarrolladores de software como integradores de sistemas puedan incorporar el módulo a sus soluciones de forma relativamente sencilla, ya sea en aplicaciones de escritorio, servicios backend locales o herramientas específicas para sectores como sanidad, finanzas, industria o educación.

Unigen y su estrategia de edge AI: más allá de Amaretti

El Amaretti AI Module no es un producto aislado, sino parte de una estrategia más amplia de Unigen en el ámbito de la IA de borde y la IA generativa. La compañía lleva tiempo desarrollando y fabricando módulos de aceleración como los ya mencionados Biscotti y Poptart, junto con servidores de edge AI pensados para entornos exigentes pero alejados del gran data center tradicional.

Los módulos Biscotti, en formato E1.S, y Poptart, en formato E3.S, integran dos procesadores Hailo-8 cada uno, con un rendimiento de hasta 52 TOPS en el caso de Poptart, y se han diseñado para encajar en bahías estándar de servidores o en dispositivos de borde. Ambos incluyen funciones de plug-and-play y hot swap, lo que reduce el riesgo de tiempos de inactividad y facilita la actualización rápida del hardware sin rediseñar por completo la infraestructura.

Unigen orienta estas soluciones a un abanico amplio de escenarios, que abarca desde pequeños gateways en el borde de la red hasta racks completos para IA on-premises. La idea es que una misma familia de productos pueda desplegarse en hospitales, fábricas, sistemas de videovigilancia, explotaciones agrícolas inteligentes o campus educativos, siempre con énfasis en la eficiencia energética y la flexibilidad.

La compañía pone especial atención en la relación rendimiento por vatio y rendimiento por euro invertido, tratando de lograr el mejor equilibrio posible entre eficiencia y coste para sus clientes. Esta filosofía se refleja también en Amaretti, que apunta a cubrir el hueco entre los grandes aceleradores de GPU para centros de datos y los usuarios que necesitan IA local realista y asequible.

Aplicaciones prácticas: de visual AI a GenAI y agentes locales

El crecimiento del mercado de la IA es espectacular y las previsiones apuntan a un volumen de gasto superior al billón de dólares antes de que termine la década. En ese contexto, soluciones como el Amaretti se colocan en un punto intermedio muy interesante: suficiente potencia para modelos avanzados, un formato compacto y un consumo contenido que encaja bien en muchas aplicaciones de borde.

¿Cómo conseguir el código de la radio de mi coche?

En el ámbito de la IA visual, los productos de Unigen se están orientando a casos como sistemas de gestión de vídeo (VMS), plataformas de prevención del crimen, monitorización médica mediante cámaras, control de calidad en líneas de producción o vigilancia de infraestructuras críticas. La capacidad de procesar vídeo y datos en el propio borde reduce la necesidad de enviar grandes volúmenes de información a la nube, mejorando la latencia y protegiendo la privacidad.

En sanidad, la combinación de módulos de IA de bajo consumo y servidores edge puede ayudar en diagnósticos mediante imágenes médicas, monitorización de pacientes en tiempo real o análisis de señales biomédicas cerca del lugar donde se generan los datos, evitando cuellos de botella y mejorando la capacidad de respuesta del personal médico.

En agricultura, las soluciones de edge AI de Unigen pueden apoyar sistemas de cultivo inteligente, con monitorización de cultivos, detección de plagas, riego automatizado y supervisión de ganado, todo ello ejecutado in situ, a menudo en entornos con conectividad limitada donde depender de la nube no es viable o resulta demasiado caro.

En paralelo, el Amaretti y los futuros módulos de la familia apuntan de lleno a la IA generativa y a los LLM desplegados en las propias instalaciones del cliente. Pequeñas y medianas empresas, centros educativos o instituciones públicas pueden beneficiarse de asistentes de IA que funcionen en local, con datos internos que no abandonan su red, respetando requisitos de cumplimiento normativo y seguridad.

Estándares, fabricación y fiabilidad del ecosistema Unigen

Para garantizar que sus soluciones encajen en infraestructuras ya existentes sin necesidad de grandes cambios, Unigen sigue las especificaciones del Open Compute Project (OCP) en sus servidores de edge AI y módulos de inferencia. Esto implica que, por ejemplo, un servidor o módulo OCP de Unigen puede trabajar de forma directa con racks, chasis y sistemas de gestión OCP de terceros, sin adaptaciones complejas.

Esta apuesta por los estándares va de la mano de una fuerte inversión en capacidades de fabricación propias. Unigen ha ido reforzando su presencia industrial tanto en Estados Unidos como en el sudeste asiático, con nuevas líneas de montaje, equipos de superficie (SMT) avanzados y procesos automatizados que permiten responder a la creciente demanda de hardware de IA.

La compañía ha obtenido certificaciones de primer nivel, como AS9100D (aeroespacial y defensa), ISO 13485 (dispositivos médicos) e IATF 16949 (automoción), lo que indica que sus procesos de fabricación cumplen los requisitos más estrictos de sectores especialmente sensibles y regulados. Esta base de calidad es crucial para que los módulos de IA se puedan integrar en soluciones críticas donde la fiabilidad no es negociable.

Además, Unigen ha abierto una planta de fabricación en Malasia con líneas de producción modernas y un alto grado de automatización, reforzando su resiliencia frente a posibles interrupciones regionales y mejorando la logística. La cercanía a Coraza Systems, una empresa de fabricación de chapa y tooling perteneciente al mismo grupo, permite ofrecer servicios de integración vertical en un radio muy reducido, acelerando el diseño y producción de chasis, carcasas y soluciones completas.

Todo este entramado industrial y de estándares consolida a Unigen como un proveedor sólido en el ámbito de los módulos de IA y servidores edge, lo que repercute directamente en la fiabilidad y continuidad de productos como el Amaretti de cara a los próximos años.

Visto en conjunto, el Unigen Amaretti AI Module se coloca como una pieza muy interesante para cualquiera que quiera llevar la IA generativa y los modelos de lenguaje avanzados a su propio PC o a pequeños servidores locales aprovechando un simple zócalo M.2. Su combinación de hasta 60 TOPS en 10 W, soporte de hasta 32 GB de LPDDR4x y capacidad para LLM de 20.000 millones de parámetros, junto con la compatibilidad con frameworks populares y la apuesta de Unigen por la edge AI estandarizada, lo convierten en una opción especialmente atractiva para usuarios, integradores y empresas que buscan IA local potente sin dar el salto a la complejidad y el coste de las grandes GPUs para centros de datos.

Cómo saber si tu equipo tiene NPU y si está listo para la IA local