- Arquitectura modular: 64 SuperPoDs con 8.192 NPUs cada uno (524.288 en total).
- Rendimiento: 524 ExaFLOPS FP8 para entrenamiento y 1 ZettaFLOPS FP4 en inferencia.
- Interconexión óptica UnifiedBus/UBoE: 16 PB/s y 2,1 μs de latencia, UB‑Mesh.
- Hoja de ruta Ascend: 950 (PR/DT), 960 y 970 con HBM propia y más escala.
La carrera por la computación para IA a gran escala se ha vuelto un asunto de sistemas y no solo de chips, y Huawei ha movido ficha con una propuesta que pone el foco en la escala, la interconexión y la fiabilidad del sistema. En su evento Huawei Connect 2025, la compañía desveló el Atlas 950 SuperCluster y una arquitectura de SuperPoDs que, combinados, aspiran a liderar la potencia de cálculo agregada para entrenamiento e inferencia de modelos gigantes de IA.
Más allá de los titulares llamativos, aquí lo importante es que el Atlas 950 SuperCluster promete cifras colosales: hasta 524 ExaFLOPS en FP8 orientados a entrenamiento y 1 ZettaFLOPS en FP4 para inferencia, con un tejido de red óptico y un protocolo de interconexión propietario que busca minimizar cuellos de botella. Todo ello se ha diseñado con piezas que China puede fabricar o aprovisionar internamente, un matiz estratégico que da contexto a la ambición de Huawei en plena tensión tecnológica global.
Qué es el Atlas 950 SuperCluster y por qué importa
El Atlas 950 SuperCluster es el nivel superior de una arquitectura modular: agrupa múltiples SuperPoDs Atlas 950 en un único “superclúster” capaz de ejecutar cargas de trabajo de IA de nueva generación. En números, estamos hablando de 64 Atlas SuperPoD sumando en total 524.288 NPUs Ascend 950DT, una cifra que explica por sí sola por qué Huawei habla de rendimiento a exaescala y zettaescala en función del formato numérico utilizado.
Con este despliegue, Huawei apunta a dar soporte a modelos de IA de “cientos de miles de millones a decenas de billones de parámetros”, una franja que anticipa la próxima hornada de modelos fundacionales y de agentes multimodales avanzados. La propuesta no se queda en el marketing: las especificaciones de interconexión y de topología de red han sido pensadas para que los recursos computacionales se comporten como una máquina lógica unificada, manteniendo latencias bajas incluso a gran distancia dentro del centro de datos.
Uno de los mensajes clave de Huawei es que el Atlas 950 SuperCluster está diseñado para competir directamente con las plataformas de próxima generación de la competencia, incluidas las basadas en Rubin de Nvidia previstas para finales de 2026. Eso coloca a Huawei en un calendario agresivo: el Atlas 950 SuperCluster se espera para finales de 2026, y el Atlas 960 SuperCluster un año después, con la ambición de superar el millón de NPUs y alcanzar entre 2 y 4 ZettaFLOPS en formatos de baja precisión.
Arquitectura: del SuperPoD al SuperCluster
La piedra angular del sistema es el Atlas 950 SuperPoD. Cada SuperPoD integra 8.192 NPUs Ascend 950DT y, a nivel físico, se despliega en 160 armarios (aprox. 128 de cómputo y 32 de comunicaciones) ocupando en torno a 1.000 m², un área similar a dos pistas de baloncesto. El clúster completo, con sus 64 SuperPoDs, se extiende hasta unos 64.000 m², equivalentes a ~150 canchas de baloncesto o unos nueve campos de fútbol, señal de que la apuesta de Huawei es de escala masiva.
En interconexión, Huawei combina compatibilidad con RoCE (RDMA over Converged Ethernet) y su propio protocolo UBoE (UnifiedBus over Ethernet), apoyándose en una topología UB‑Mesh. El tejido es totalmente óptico y presume de un ancho de banda interno del orden de 16 PB/s con latencias de ~2,1 microsegundos, cifras fundamentales para que decenas de miles de aceleradores mantengan sincronías de entrenamiento exigentes sin penalizaciones desproporcionadas.
Huawei ha publicado además las especificaciones de UnifiedBus 2.0 para impulsar un ecosistema abierto de componentes compatibles. Este movimiento, que se complementa con la apertura del componente de sistema UB OS, busca que terceros puedan diseñar productos que “hablen” UnifiedBus, fortaleciendo la cadena de suministro y reduciendo dependencias críticas.
El diseño de los SuperPoDs también pone énfasis en la refrigeración por líquido y en la fiabilidad. Se han mencionado conexiones blind‑mate para evitar fugas, y módulos ópticos con mejoras que, según la compañía, duplican la fiabilidad de alternativas comparables. Esta atención al detalle es clave cuando el objetivo es sostener trabajos de entrenamiento que pueden prolongarse durante semanas o meses.
Rendimiento declarativo y comparativas con gigantes del sector
Cada Atlas 950 SuperPoD promete del orden de 8 ExaFLOPS en FP8, un dato que Huawei contrasta con los ~1,2 ExaFLOPS FP8 por sistema en la configuración NVL144 Vera Rubin de Nvidia; la comparación con arquitecturas rivales como la Blackwell / Rubin pone la escala de sistema en el centro de su narrativa competitiva.
Cuando el foco se traslada al superclúster completo, las magnitudes crecen: hasta 524 ExaFLOPS FP8 para entrenamiento y 1 ZettaFLOPS FP4 para inferencia en configuraciones tope de gama. En este terreno de juego aparecen comparaciones con despliegues de referencia: Huawei asegura que el Atlas 950 SuperCluster supera al superclúster OCI de Oracle (con 131.072 GPU B200, ~2,4 ZettaFLOPS FP4) y al clúster Colossus de xAI, con un factor de ~2,5× más NPUs y ~1,3× más capacidad agregada de cálculo en sus métricas.
Más allá de lo declarativo, el enfoque es nítido: si cada chip no puede vencer aisladamente a la alternativa más avanzada de Nvidia, la solución es ensamblar muchos más aceleradores y conectarlos con una red propia y eficiente para escalar el rendimiento efectivo del sistema; esta estrategia contrasta con otras propuestas basadas en arquitecturas IPU y enfoques heterogéneos.
En la práctica, esta filosofía hace que la planificación de red, energía, alimentación y refrigeración sea determinante para el éxito. El Atlas 950 SuperCluster asume ese reto: requiere más espacio y recursos auxiliares que un sistema equivalente basado en chips de mayor rendimiento unitario, pero lo compensa con una escala que multiplica la potencia agregada.
Interconexión UnifiedBus, software abierto y fiabilidad a gran escala
El cuello de botella tradicional en clústeres masivos de IA ha estado en la conectividad: cómo enlazar de forma fiable y con baja latencia decenas o cientos de miles de aceleradores a lo largo de distancias considerables dentro del centro de datos. Huawei ha volcado su experiencia de décadas en redes en UnifiedBus, su protocolo para SuperPoDs y SuperClusters, que con la versión UnifiedBus 2.0 busca escalar más allá de las 10.000 NPUs manteniendo garantías de calidad de servicio.
La compañía ha hecho público que su software de base UB OS puede integrarse total o parcialmente con sistemas operativos existentes, una decisión que pretende simplificar la adopción y favorecer la interoperabilidad. Además, continúa el despliegue de su toolkit Ascend CANN y la familia de componentes “Mind”, al tiempo que colabora con comunidades como PyTorch o vLLM para facilitar la vida a los equipos de ingeniería que ya trabajan con esos ecosistemas.
El ecosistema de hardware también se abre: Huawei ha liberado las especificaciones del protocolo y de la arquitectura de referencia SuperPoD, junto a documentación de tarjetas NPU, blades (refrigerados por aire y por líquido), placas CPU y tarjetas en cascada. En paralelo, algunas comunicaciones de la compañía mencionan innovaciones de interconexión con otros nombres comerciales, pero la hoja de ruta pública pivota inequívocamente sobre UnifiedBus/UBoE y topologías UB‑Mesh.
Un detalle poco glamuroso pero vital: la fiabilidad. En estos entornos, fallos aislados son inevitables. El Atlas 950 enfatiza mecanismos de tolerancia a fallos y continuidad operativa, con componentes ópticos reforzados y prácticas de diseño para que la caída de nodos individuales no detenga sesiones de entrenamiento críticas.
Ascend 950, 960 y 970: hoja de ruta y memoria HBM propia
La familia de aceleradores Ascend marca el tempo del ecosistema. La serie Ascend 950 llega en dos variantes: 950PR, con 128 GB de memoria HBM y ancho de banda de ~1,6 TB/s; y 950DT, que escala a 144 GB y en torno a 4 TB/s de ancho. Estas piezas se esperan para el primer trimestre de 2026, y constituyen la base de los Atlas 950 SuperPoD y del SuperCluster homónimo.
De cara a 2027, Huawei planifica la serie Ascend 960, que aproximadamente duplicará capacidad de cómputo, ancho de banda y memoria frente a la 950, incorporando además un nuevo formato de 4 bits de precisión denominado HiF4, especialmente diseñado para inferencias eficientes en escenarios de baja precisión. Un año después, la serie Ascend 970 profundizará esa línea, prometiendo duplicar de nuevo el rendimiento en FP4/FP8 frente a la 960 y elevar el ancho de banda de memoria y la interconexión entre chips.
Un anuncio que ha pasado quizá con menos ruido del que merece: Huawei presentó su propia memoria HBM. En un mercado dominado por fabricantes como SK Hynix o Samsung, contar con HBM desarrollada internamente es una jugada estratégica para reducir la dependencia de cadenas de suministro sujetas a restricciones, y un paso clave para asegurar que los SuperPoDs y SuperClusters mantengan volúmenes de producción sostenidos. Más detalles sobre la evolución de memorias apiladas y 3D están disponibles en artículos sobre memoria 3D DRAM.
Este roadmap tiene una lectura evidente para operadores de centros de datos: Huawei ofrece una línea de producto con iteraciones anuales y mejoras predecibles, aportando certidumbre de crecimiento para quienes necesitan planificar capacidad a varios años. Para el mercado chino, esto encaja con la dirección política de priorizar soluciones nacionales en infraestructuras críticas.
General‑purpose y piezas complementarias: TaiShan y Kunpeng
No todo es IA. Huawei ha mostrado el TaiShan 950 SuperPoD, su primer SuperPoD de propósito general, pensado para cargas como bases de datos, big data y migración de máquinas virtuales, y que junto a la base de datos distribuida GaussDB pretende posicionarse como alternativa a mainframes, equipos de gama media e incluso a plataformas como Exadata.
En la capa CPU, la compañía ha introducido Kunpeng 950, con variantes de 96 núcleos/192 hilos y 192 núcleos/384 hilos, orientadas a servidores y a SuperPoDs generalistas. Hay planes para un Kunpeng 960 con mejoras en rendimiento por núcleo y densidad de hilos, apuntando a escenarios de virtualización, bases de datos y analítica intensiva, con el objetivo de ofrecer un catálogo coherente alrededor de la interconexión UnifiedBus.
Esta estrategia modular permite a Huawei tejer un mosaico de productos complementarios para IA y cómputo general, todos interoperando en su ecosistema de red y software, y reforzando la propuesta de valor para entornos mixtos donde conviven cargas de entrenamiento, inferencia, bases de datos y procesamiento transaccional.
Escala física, energía y despliegue: lo que implica jugar en liga zetta
Al apostar por “más chips en total” en vez de “chips individuales más potentes”, el precio a pagar es obvio: más espacio, más potencia, más refrigeración y más infraestructura auxiliar. Huawei es transparente con ello y dimensiona cada Atlas 950 SuperPoD en unos 1.000 m² y 160 armarios; 64 de ellos hacen un campus de computación del tamaño de un pequeño parque tecnológico.
La contrapartida positiva es que esta escala puede conseguir densidades de rendimiento agregado que compitan de tú a tú con los sistemas occidentales más ambiciosos. Huawei señala que en China es más factible desplegar centros de datos con demandas energéticas elevadas, mientras en EE. UU. y Europa los límites de red y consumo obligan a maximizar eficiencia por chip. En ese contexto, su modelo de escala masiva cobra sentido económico y operativo.
La compañía también pone en valor su experiencia en redes, energía y gestión de campus para suavizar los puntos de dolor de las ampliaciones. Con una interconexión óptica de 16 PB/s y latencias de microsegundos, el objetivo es evitar que el crecimiento en nodos derive en una tormenta de cuellos de botella que diluya los beneficios de sumar más aceleradores.
Como guiño informal a la magnitud del sistema, algún comentario ha ironizado con que, ante tanto músculo, “hasta tu móvil se sentiría pequeño”. Bromas aparte, el mensaje subyacente es claro: un clúster así puede acortar proyectos científicos que antes tomaban meses o años, y acelerar el entrenamiento y la inferencia de modelos extremos con ventanas de tiempo realistas.
Contexto geopolítico y estrategia de ecosistema
El movimiento llega en un momento de máxima tensión tecnológica entre EE. UU. y China. Washington ha restringido la exportación de chips de Nvidia al mercado chino, mientras Pekín empuja a sus instituciones y empresas a priorizar hardware local. En ese tablero, Huawei presenta una arquitectura y un roadmap de aceleradores, memoria y software que reduce dependencia y garantiza continuidad dentro de su ecosistema; la evolución de alianzas y movimientos en la industria, como inversiones y acuerdos estratégicos, ejemplifican estos cambios (alianzas históricas de chips).
El énfasis en estándares abiertos “propietarios pero documentados” cobra aquí un papel diferencial: al publicar especificaciones de UnifiedBus 2.0 y abrir componentes de software clave, Huawei intenta sumar socios y proveedores para construir una cadena de valor amplia y resiliente. A escala de país, es un paso necesario para asegurar el suministro de componentes y servicios en proyectos de largo recorrido.
La compañía también presume de tracción comercial previa: más de 300 unidades de su Atlas 900 A3 SuperPoD (con 384 Ascend 910C) entregadas en 2025 a una veintena larga de clientes de Internet, finanzas, telecomunicaciones, energía y manufactura. Esa base instalada sirve de puente hacia la nueva familia Atlas 950/960.
Si el plan se materializa, los SuperClusters con cientos de miles de NPUs trabajando al unísono cambian la conversación: del “chip más potente” a la “arquitectura de sistema más capaz de sostener los entrenamientos de próxima generación” en condiciones reales de red, energía y fiabilidad.
Disponibilidad y calendario de lanzamientos
Huawei ha marcado un itinerario claro: Atlas 950 SuperCluster a finales de 2026 y Atlas 960 SuperCluster en 2027, con el Atlas 950 SuperPoD como módulo base capaz de reunir 8.192 NPUs por unidad. De forma paralela, la familia Ascend 950 (PR/DT) llegará en el primer trimestre de 2026, seguida por Ascend 960 (Q4 2027 aprox.) y Ascend 970 (2028), con incrementos sustanciales de cómputo, memoria, ancho de banda e interconexión en cada iteración.
Respecto a prestaciones publicadas, Huawei asegura que cada Atlas 950 SuperPoD alcanza los citados 8 ExaFLOPS FP8 y 16 ExaFLOPS en FP4, y que el superclúster puede acercarse a los 524 ExaFLOPS en FP8 y al zettaflop en FP4, todo ello apoyado en una malha óptica interna de 16 PB/s y latencias de 2,1 μs. Con la serie 960, el objetivo es duplicar capacidades en varios frentes y superar el millón de NPUs agregadas.
Mientras tanto, Huawei recuerda que su arquitectura está pensada tanto para entrenamiento como para inferencia a gran escala, con formatos de precisión mixta (FP8 y FP4 hoy, y HiF4 en el horizonte) y con un énfasis especial en la eficiencia energética por tarea de IA, más allá de la cifra absoluta de FLOPS.
El Atlas 950 SuperCluster dista de ser un simple anuncio: es una estrategia de sistema que combina escala física, protocolo de interconexión propio, apertura de software y un roadmap de aceleradores y memoria que busca asegurar disponibilidad en el tiempo. Entre cifras como 524 ExaFLOPS en FP8, 1 ZettaFLOPS en FP4, 64 SuperPoDs con 8.192 NPUs cada uno, una red óptica de 16 PB/s y latencias de microsegundos, Huawei quiere cambiar el prisma de la comparación: menos duelo “chip a chip” y más sistema contra sistema, con la escala y la fiabilidad como cartas ganadoras.