Los secretos de las GPU chinas

Guía Hardware » Tutoriales » Los secretos de las GPU chinas: cómo China está plantando cara a Estados Unidos para vencer los bloqueos

La guerra geopolítica entre Estados Unidos y China se está tensando. Ya se han producido varios bloqueos tecnológicos a varias empresas tecnológicas chinas, una de ellas Huawei. Por esto, China se está preparando para no tener que depender de Estados Unidos, diseñando sus propias GPU. Si ayer os comentamos sobre las CPU chinas, hoy le toca el turno a estas otras unidades de procesamiento…

¿Tendrá Intel, NVIDIA, AMD, Qualcomm, Samsung, o Imagination Technology algo que temer?

Recuerda que el mercado de GPU no solo es importante para el consumo, para los equipos gaming, también lo es para el sector HPC, donde se depende mucho de estos aceleradores GPGPU para obtener mejores rendimientos en cargas científicas, así como para utilizarlos en la aceleración de la IA. Y antes las trabas de EE.UU. para usar ciertas GPUs de NVIDIA más potentes, etc., China necesita desarrollar su propia tecnología de forma urgente.

Muxi (MetaX)

La primera en la lista es la MetaX o Muxi, una compañía china que ha diseñado una GPU propia especialmente pensada para aplicaciones de IA, acelerando estas cargas en centros de datos. Su nueva GPU se llama Muxi MXC500, y ha llegado a consecuencia de esta guerra de tecnología y acusaciones entre los gobiernos.

Como sabes, el sector de la inteligencia artificial es de gran importancia en la actualidad, por eso esta empresa ha fijado su objetivo aquí. Y lo cierto es que no lo hace mal del todo, ya que han conseguido una GPU capaz de llegar a los 15 TFLOPS de rendimiento en FP32 nada mal si tenemos en cuenta que la NVIDIA A100 tiene 19.5 TFLOPs. Y no solo eso, aseguran que pueden tener compatibilidad con CUDA. Recordemos que CUDA solo funciona en las NVIDIA, ni siquiera en las Intel y AMD. ¿Cómo han conseguido esa compatibilidad? La verdad es que es todo un misterio. Pero si es verdad esto, podrán usar la API de la propia NVIDIA para programar las cargas de trabajo, y no tener que pasar sí o sí por OpenCL como otros.

Según la empresa, la MXC500 completó con éxito las pruebas, y pronto estará disponible para llegar al mercado chino. Veremos si traspasa el mercado a otros países, pero parece que no será así, como le ha ocurrido a las CPUs chinas de las que hablé ayer. Es decir, se centrará más en el mercado chino, para paliar estas carencias con las que ha dejado al país Estados Unidos.

Muxi ofrecerá también las series MXN para inferencia de IA y MXG para renderizado, que se unirán así a la MXC de la que hemos comentado… Será interesante esperar y ver los resultados finales en unos meses.

Moore Threads

Quizás te hayas quedado un poco descafeinado con Muxi, puesto que el modelo de negocio no está tan centrado en el consumidor. Sin embargo, ahora toca el turno de repasar otra empresa china dedicada a las GPU, como es Moore Threads. Esta compañía ha sido capaz de crear y lanzar su primer producto, la MTT S80.

La tarjeta gráfica de China ha generado una gran expectación, principalmente porque es la primera en incorporar PCIe 5.0, superando en este aspecto a NVIDIA, AMD e Intel. Pero no es lo único sorprendente que tiene esta tarjeta gráfica.

Moore Threads la ha dotado de un chip Chunxiao diseñados por ellos mismos, y que contiene 4.096 Shaders, 128 Tensor Cores, 256 TMU, y funciona a 1,8 GHz. Es decir, parecen haber seguido el camino marcado por NVIDIA. Y les ha servido para conseguir un rendimiento en FP32 de 14.4 TFLOPS, es decir, se situaría en este sentido entre una NVIDIA GeForce RTX 3060 y una RTX 3060 Ti que, repito, no está nada mal, a pesar de que ya existen nuevas generaciones de gráficas y otros modelos muchos más potentes de Intel, AMD y NVIDIA, pero para ser el primer paso, cuidado…

Esta GPU Chunxiao viene acompañada con 16 GB de memoria GDDR6 a 14 Gbps y un bus de 256 bits. No obstante, a pesar de esa memoria VRAM, parece que no se las apaña demasiado bien al manejar texturas pesadas a altas resoluciones, como 4K.

No obstante, tienes que tener en cuenta que el precio de esta tarjeta ronda los 2999 yuanes, que serían unos 412€ aproximadamente, es decir, más o menos el precio al que están sus rivales de NVIDIA con los que compite directamente en rendimiento. Puede que no parezca atractiva en este sentido, pero hay que tener en cuenta que es para el mercado chino, privado de ciertas tecnologías…

Fabricantes de PCB para GPUs NVIDIA y AMD más fiables según usuarios

En cuanto a compatibilidad con los títulos de videojuegos, por ahora es compatible con 20 juegos (CS:GO, League of Legends, Call of Duty,…) y con las APIs gráficas DirectX y OpenGL, entre otras. Muxi está trabajando con desarrolladores de motores gráficos como Unity 3D o Unreal Engine para traer más títulos compatibles en el futuro.

Biren Technology

Biren Technology es otra empresa china que se ha animado con esto del diseño de la GPU, en este caso, al igual que MetaX, está orientada al ámbito del HPC. Hablamos de la Biren BR100, un diseño basado en chiplets, con 77.000 millones de transistores, fabricada en TSMC con tecnología de 7nm y usando empaquetado CoWoS 2.5D.

La tarjeta gráfica está equipada con 300 MB de caché junto con 64 GB de memoria HBM2E con un ancho de banda inmenso. Esta combinación ofrece un rendimiento superior al de la NVIDIA Ampere A100, con 1024 TFLOPs de potencia de cálculo en operaciones de coma flotante de 16 bits, es decir, en FP16. Recordemos que el FP16, y FP8, son fundamentales para acelerar cargas de IA.

La compañía también anunció la Biren BR104 con un diseño monolítico y aproximadamente la mitad de rendimiento que la BR100, con un TDP de 300W, y compatible con el slot PCIe. En el caso de la BR100 es compatible con OAM (OCP Accelerator Module), como algunas de sus competidoras para el sector HPC.

Innosilicon

La siguiente de la lista es Innosilicon, una compañía china que ya lanzó al mercado chino la tarjeta gráfica Fantasy I, y ahora también tenemos la Fantasy II lista. La primera versión era capaz de lograr un rendimiento en FP32 de 10 TFLOPS, con un TDP de 50W. La segunda generación llega a los 1.5 TFLOPS y 48 Gpixeles por segundo, pero con un consumo mucho más reducido, entre 4 y 15W.

La Fantasy I que llegó el pasado año venía con 16 GB de memoria GDDR6, y la compañía china la llegó a comparar con la NVIDIA GeForce RTX 3070, aunque el rendimiento no llega a ese límite. Además, tampoco está disponible para el mercado occidental, como ocurre con otras muchas de la lista, centrándose en el mercado chino.

La Fantasy II de Innosilicon no destaca por su rendimiento, como has podido comprobar en el primer párrafo de este apartado, sino que sobresale por su eficiencia energética, con un bajísimo consumo si la comparamos con AMD y NVIDIA, o con la Fantasy I. Y esto es muy positivo para aplicaciones en servidores o la nube.

La Innosilicon Fantasy II se basa en la arquitectura gráfica de Imagination Technologies PowerVR, al igual que las de Apple para sus A-Series y M-Series. Se fabrica con un proceso de 5 nm en TSMC. El ancho de banda total de la memoria es de 102.4 GB/s, y en rendimiento para IA consigue llegar a los 12.5 TOPS en INT8. Sin embargo, sorprende que incluya un puerto VGA, que en la mayoría de los casos se considera obsoleto.

Las especificaciones técnicas completas de la Innosilicon Fantasy II son las siguientes:

Núcleo adicional de seguridad PUF (físicamente unclonable) basado en RISC-V.
Interfaz PCIe 3.0 x8
Memoria VRAM GDDR6 de 2GB/4GB/8GB (con hasta 10 Gbps)
cTDP entre 4 y 15 vatios
1 puerto DisplayPort
2 puertos HDMI 2.0
1 puerto VGA
Compatibilidad con DirectX 11 y Windows. *(en la presentación se mostró el rendimiento con juegos como League of Legends, pero está enfocada a la IA y HPC)

Volviendo al tema del rendimiento, también se han realizado pruebas con el benchmark Glmark2 (sin especificar versión), que se basa en OpenGL 2.0 y ES 2.0. La Innosilicon Fantasy II ha obtenido una puntuación de más de 6.500 puntos. Esto la pondría por debajo de la NVIDIA GeForce GTX 1030, que consigue 7200 puntos, y muy próxima a la AMD Radeon RX 550, con 6700 puntos.

Puedes pensar que los datos de rendimiento son bastante pobres, comparando a la Fantasy II con tarjetas gráficas obsoletas. Pero hay que tener en cuenta que la RX 550 tiene un TDP de 50W, y la GTX 1030 de 30W. La Fantasy II, en el peor de los escenarios consume la mitad de la de NVIDIA, por lo que conseguir ese rendimiento con este consumo tan bajo es notable…

Nvidia y Trump: exportaciones a China, chips Blackwell y el pulso del mercado

Zhaoxin

Si pensabas que eso era todo en cuanto a GPUs chinas te equivocas. Shanghai Zhaoxin Semiconductor también ha lanzado su propia tarjeta gráfica, se llama Glenfly Arise 1020, y el kit completo de venta incluiría una CPU de esta misma empresa, y una placa base fabricada por ellos mismos.

En este caso se trata de un producto orientado al consumidor particular, pero para el mercado chino una vez más. Se incluiría una CPU Zhaoxin KaiXian de 8 núcleos a 2.7 Ghz, 8 GB de memoria RAM DDR4, la placa base, y la tarjeta gráfica Glenfly Arise 1020, que contará con 24 unidades de cómputo y 2 GB de memoria VRAM. Además, será compatible con OpenCL.

Y ahora vamos a lo que estarás pensando, el rendimiento. Pues bien, en el benchmark Geekbench y con la API gráfica OpenCL, consiguió una puntuación de 579, esto lo pone muy lejos de los competidores, ya que una NVIDIA GeForce GTX 1650 alcanza los 38.000 puntos y la RTX 3070 llega a los 135.000 puntos. Es decir, está a la par de tarjetas gráficas de hace varias generaciones. Esto la pone a la par de una iGPU AMD Radeon HD 6480G o Radeon HD 6410D de 2011, o en el mundo Arm a la par de una GPU Mali-G52 de 2018. Puede parecer poco, pero lo cierto es que puede ejecutar algunos videojuegos menos exigentes, y para usuarios que quieren algo básico es suficiente.

Iluvatar

Iluvatar CoreX ha presentado también sus chips GPU para propósito general y para HPC. Gracias a la financiación recibida, la compañía china podrá llevar a cabo la producción en masa de su chip Tiangai 100, desarrollado especialmente para acelerar la IA, además de comenzar con el desarrollo de la segunda y tercera generación, Tiangai 200 y 300. Además, también desarrollarán software necesario, y hardware para renderizado de gráficos.

Iluvatar CoreX lanzó su diseño de chips GPU en 2018. La empresa se convirtió así en el primer proveedor de chips GPU de alta gama y sistemas informáticos de supercomputación en China, y se compromete a desarrollar productos GPU de alto rendimiento líderes a nivel internacional para propósitos generales y acelerar la inteligencia artificial y el renderizado de gráficos.

En marzo de 2021, llegó la GPU de aprendizaje para la nube de 7 nm, la Tiangai 100. A finales de marzo de 2022, el Tiangai 100 había alcanzado pedidos de venta de casi 200 millones de yuanes. Y no paran de crecer, así que cuidado con el futuro de esta compañía…

Denglin Technology

Denglin Technology es una empresa china con sede en Shanghai y dedicada al diseño de GPU desde 2017. Fue fundada bajo la inversión de varios fondos y en el que intervino el pripio gobierno de China. La idea era desarrollar productos compatibles con CUDA de NVIDIA, sí, igual que la que vimos anteriormente. De esta forma, podría competir con las NVIDIA sin necesidad de usar otra API diferente.

Las GPUs que esta firma ha desarrollado llevan el nombre de Goldwasser, y las especificaciones son:

Goldwasser UL32: esta unidad de procesamiento viene con una interfaz MXM 3.1, un consumo eléctrico de 10W, un rendimiento en FP16 de 8 TFLOPS, y 32 TOPS en INT8, con decodificador de vídeo H.264/H.265 de 32 canales para 1080p@30 FPS, y memoria a elegir entre 4GB, 8GB y 16GB.
Goldwasser UL64: esta versión de mayor rendimiento viene con una interfaz MXM 3.1, un consumo eléctrico de 15W, un rendimiento en FP16 de 16 TFLOPS, y 64 TOPS en INT8, con decodificador de vídeo H.264/H.265 de 64 canales para 1080p@30 FPS, y misma cantidad de memoria que la anterior, es decir, configuraciones de 4GB, 8GB y 16GB.

VastAI Technology

VastAI Technologies es otra startup con sede en Shanghai dedicada al mundo de la GPU para acelerar las cargas AI en los centros de datos y renderizado, también con vistas a sectores como los dispositivos móviles, etc. Recientemente ha lanzado su chip GPU SG100 con tecnología de fabricación de 7nm. La idea es llevar a China al liderato en tecnologías de alto rendimiento, gran ancho de banda, y baja latencia.

Para qué sirve el VRM de una placa base o tarjeta gráfica

El chip irá integrado en una placa Zaitian VA10, que consumirá 150W en total, lo que está bastante por debajo de las GPUs gaming actuales, y con una mejora de la latencia del 6% respecto a estas.

La serie Zaitian VE1, tendrá un consumo de 40-65W, con un pico de rendimiento de 100 TOPS en INT8. Un acelerador con decodificación en tiempo real de 60 canales de 1080p y aceleración de IA que podría ir destinado a vehículos autónomos, industria, etc.

Además, hay que agregar que cuenta con personal con mucha experiencia, algunos llevaban décadas trabajando en la creación de ASICs para Cisco Systems, en la división gráfica de AMD, entre otras compañías líderes.

Jingjia Micro

Jingjia Micro (Changsha Jingjia Microelectronics) es una compañía china de la que no se ha conocido demasiado, pero que se encargaba de desarrollar tecnología computacional para uso civil y militar. Esta compañía creada en 2006 ha estado desarrollando, entre otros dispositivos, una GPU denominada Jingjia Micro JM9271. Una gráfica que debía ofrecer un rendimiento similar a la NVIDIA GeForce GTX 1080, según lo prometido.

Se sabe que esta GPU no soporta la API gráfica Vulkan, ni tampoco DirectX, por lo que solo se maneja con OpenGL para gráficos y OpenCL para propósito general. Además, la JM9271 cuenta con una interfaz PCIe 4.0, puede trabajar a una frecuencia de hasta 1.8 Ghz en modo Turbo, llega a un Pixel Rate de 128 GPixel/s, y 8 TFLOPS en FP32. También cuenta con una VRAM tipo HBM de 16 GB y con un ancho de banda de 512 GB/s. Todo ello con un TDP de 200W, 20W más que la GTX 1080.

Por otro lado tenemos la JM9231, la hermana pequeña de la anterior, y en este caso funciona a 1.5 Ghz de frecuencia de reloj, tiene una interfaz PCIe 3.0, ancho de banda de 256 GB/s, 8 GB de memoria VRAM tipo GDDR5, rendimiento de 2 TFLOPS en FP32, 32 GPixel/s, y un consumo de 150W, muy por encima de la GTX 1050 con la que pretende competir.

Tanto en un caso como en el otro, cuentan con puertos HDMI 2.0 y DisplayPort 1.3, así como motores de codificación H.265 para 4K@60FPS.

Verisilicon

VeriSilicon es otra compañía de China que va a dar que hablar, ya que se ha centrado en desarrollar núcleos IP y en el ecosistema RISC-V. Están inviertiendo mucho en recursos y en I+D, y eso dará sus resultados dentro de un tiempo. Además, también ha abierto centros de investigación en Silicon Valley y otros dos en Dallas, Texas.

La empresa está centrada en los IP basados en chiplets, especialmente para impulsar sectores como la movilidad inteligente y los centros de datos de alto rendimiento. En lo que ellos llaman un servicio o modelo de «Plataforma de Silicio como Servicio», han desarrollado 6 tipos de IPs de procesamiento, entre los que incluyen GPU, DSP, ISP, NPU y VPU.

Es importante destacar que VeriSilicon señaló su capacidad para diseñar chips con tecnología de 5 nm (FinFET) y en nodos de 28/22 nm basados en tecnología FD-SOI, entre otros nodos. Por tanto, hablamos de chips bastante competitivos…

CSIC

Aunque CSIC (China Shipbuilding Industry Corporation) pueda resultar un nombre confuso y recordarte al CSIC español, lo cierto es que también se llama así una compañía china que se ha encargado de desarrollar una nueva arquitectura de renderizado híbrida. Una GPU de propósito general que se podría colocar como una de las más potentes fabricas en china.

Zhaoxin, del que he comentado anteriormente, se ha aliado con ellos para desarrollar las tarjetas gráficas para llevar en su corazon este chip de CISC denominado JARI G12. Este chip concretamente ha surgido del CSIC 716 Institute, un centro especializado en sistemas militares.

En cuanto al rendimiento, aunque parece que sería una de las más potentes, no hay detalles para evaluarlo…

Enflame

Aunque no sea una empresa puramente dedicada a las GPU, sí que hay que destacar la labor de esta compañía china en el desarrollo de aceleradores de IA, como la DTU. Enflame Technology ha propuesto una arquitectura innovadora y un soporte de ecosistema de código abierto, lo que significa que las empresas pueden llevar a cabo tareas de aceleración de la inteligencia artificial sin depender de chips GPU.