Dark Silicon: qué es - Guía Hardware

Actualizado a: 19 de enero de 2024

El silicio oscuro o dark silicon, es un concepto que pocos conocen, pero que afecta bastante a los actuales chips, entre ellos los SoCs de tus dispositivos móviles, microprocesadores y GPUs. Por tanto, sería interesante que conozcas qué es y cómo afecta a estos dispositivos semiconductores, o cómo los fabricantes están tratando de lidiar con este fenómeno.

Contenido

¿Qué es Dennard Scaling?

Antes de conocer qué es el Dark Silicon, hay que conocer esta otra ley de escalado de los chips. Y es que el avance en la tecnología de los semiconductores ha llevado a una reducción constante en el tamaño de los transistores, pasando de micrones a nanómetros y más allá. Esta disminución en el tamaño de los transistores está relacionada con la Ley de Dennard Scaling, que ha sido un pilar fundamental en el desarrollo de chips.

La Dennard Scaling, también conocida como Ley de escalado de Dennard, es un concepto estrechamente vinculado con la Ley de Moore y la Ley de Pollacks. Estas tres leyes forman un trío esencial en la industria de la tecnología, y se utilizan para determinar que, cada vez que se duplica el número de transistores en un circuito con un consumo de energía constante, el rendimiento aumenta en un 40%. Sin embargo, es importante señalar que estas leyes no siempre se cumplen de manera precisa.

Robert H. Dennard, uno de los coautores de esta ley, la propuso por primera vez en 1974 en relación con los transistores MOSFET. Con el tiempo, la ley se ha adaptado a las nuevas estructuras de transistores, como los FinFET, que han reemplazado a los transistores de perfil de aleta.

En esencia, la ley se refiere a la densidad de potencia, que se mantiene constante a medida que los transistores se vuelven más pequeños. Esto significa que la energía utilizada está directamente relacionada con el área del transistor, ya que la corriente y el voltaje también disminuyen con el tamaño del transistor. Por lo tanto, a medida que la tecnología permitía hacer transistores más pequeños, se podía aumentar la frecuencia de reloj sin un aumento significativo en el consumo de energía.

Sin embargo, actualmente, debido a las dificultades para reducir aún más el tamaño de los transistores, estas leyes han dejado de ser aplicables. Un ejemplo de esto es la lucha de Intel por reducir el tamaño de los nanómetros. Como respuesta a estos desafíos, se han buscado alternativas, como los empaquetados MCM (Multi-Chip Module) o chiplest, así como los nuevos enfoques de empaquetado en 3D para abordar estos problemas en la industria de los semiconductores.

¿Qué es Dark Silicon?

Las unidades de procesamiento modernos enfrentan un desafío conocido como Silicio Oscuro o dark silicon. Para entender esto, primero es importante recordar que en los primeros días de los microprocesadores, los transistores eran recursos escasos y los diseñadores se esforzaban por mantenerlos ocupados todo el tiempo para maximizar su eficiencia. Sin embargo, con avances en la fabricación de semiconductores y la reducción de costos, la cantidad de transistores en un chip dejó de ser un recurso limitado.

Hoy en día, los chips CPU y GPU tienen miles de millones de transistores, pero no todos están en uso constante. Algunas unidades pueden estar inactivas en ciertos momentos, e incluso se pueden apagar núcleos en ciertas cargas de trabajo, mientras que otras unidades, como el decodificador de instrucciones, están siempre activas.

A medida que la cantidad de transistores ha aumentado, no necesariamente ha disminuido su consumo de energía al mismo ritmo que su tamaño ha disminuido (esto se relaciona con la Ley de Dennard Scaling que describí anteriormente). Esto ha resultado en unidades de procesamiento con un alto consumo de energía, superando en ocasiones los 100 vatios y en el caso de las GPUs, incluso varias centenas de vatios, lo que genera una cantidad significativa de calor.

La dualidad: solución-problema

Para mantener la temperatura bajo control y evitar que el consumo de energía sea excesivo, es necesario apagar algunas partes de los chips. Estas áreas inactivas se conocen como Silicio Oscuro o Dark Silicon. Estas áreas inactivas pueden considerarse tanto un problema como una solución, y aquí está su dualidad:

Solución: cuando estas áreas están apagadas, no consumen energía, lo que ayuda a controlar la temperatura y la potencia total. Esto puede considerarse una solución para las unidades de procesamiento extremadamente grandes de hoy en día, ya que si todas las partes estuvieran en funcionamiento constante, generarían temperaturas extremas. Esta técnica también está relacionada con las tecnologías de administración dinámica de la frecuencia, ya que permite que otras partes activas funcionen con márgenes de consumo y temperatura más amplios según sea necesario.
Problema: desde una perspectiva de producción, no es eficiente tener transistores y unidades inactivas. Si bien apagar áreas del chip puede ahorrar energía, también significa que no se están utilizando recursos que podrían estar trabajando. Esto plantea un dilema sobre la eficiencia de la producción, ya que tener transistores adicionales significa un mayor costo, mayor área en el chip, menor rendimiento y puede afectar la rentabilidad si rara vez se utilizan.

Por tanto, el dark silicon es un problema creciente en los actuales chips modernos, pero también plantea desafíos en términos de eficiencia de producción y utilización de recursos.

Solución para el dark silicon

En el ámbito de los semiconductores, es común encontrar menciones al término «Silicio Oscuro» o «Dark Silicon». Este concepto no se trata de una simple estrategia de marketing, sino de un problema real que afecta a la industria de los chips. Los diseñadores de chips basados en ARM han ideado soluciones para abordar parte de los problemas asociados con el Silicio Oscuro. Estas soluciones se incorporan en SoCs (System-on-Chip) y abordan el problema de la siguiente manera:

Coprocesadores Dedicados: se utilizan coprocesadores especializados, como una FPU (Unidad de Punto Flotante) dedicada a operaciones de coma flotante. Estos coprocesadores son más eficientes que el uso de la canalización de instrucciones de propósito general para tareas específicas. Esta estrategia minimiza la cantidad de ciclos de reloj necesarios para completar una tarea y, por lo tanto, reduce el consumo de energía. Sin embargo, en algunos casos, las FPUs SIMD (Procesamiento de Datos en Serie Simple) en las arquitecturas x86 incluyen instrucciones que rara vez se utilizan, lo que aumenta innecesariamente el tamaño de estas unidades.
Multinúcleo Heterogéneo: se implementa la tecnología conocida comercialmente como «big.LITTLE» en las arquitecturas ARM, que también se ha adoptado en las CPU de Apple Silicon y algunas soluciones x86. Esta estrategia utiliza núcleos de procesamiento variados, algunos simples y de bajo rendimiento, junto con otros más grandes y complejos pero de alto rendimiento. Los núcleos se utilizan según las demandas de carga de trabajo específicas para optimizar el consumo de energía. Algo que también están empleando actualmente otras familias, como la x86.
Aceleradores: se incorporan aceleradores específicos, como unidades DSP (Procesador Digital de Señales) y TPU (Unidad de Procesamiento Tensorial), para acelerar tareas que se ejecutan de manera más eficiente en estas unidades dedicadas. Además, los SoCs pueden integrar FPGAs (Arreglos de Puertas Programables por el Usuario) junto con unidades de procesamiento para programar y desplegar unidades optimizadas para tareas específicas. AMD también ha sido la primera en emplear su motor de aceleración de IA denominado Ryzen AI, similar a como ya se veía en SoCs basados en ARM, como los A-Series y M-Series de Apple.

Estas propuestas pueden parecer contraproducentes a primera vista, ya que implican una mayor complejidad en el diseño del chip, lo que se traduce en más transistores y potencialmente más «Silicio Oscuro». Sin embargo, en realidad, estas soluciones mejoran la eficiencia al ejecutar tareas diversas y permiten que más partes del chip estén activas simultáneamente, evitando así la inactividad (o «power gating»).

Además, otras técnicas como el «throttling» o el «escalado dinámico de frecuencia» permiten reducir la velocidad de reloj de las unidades funcionales activas cuando no se requiere un rendimiento máximo. Esto se basa en el principio de que no es necesario que una unidad funcione a su máxima frecuencia si la carga de trabajo actual no lo requiere. Por ejemplo, una CPU que puede llegar a 3.2 GHz no necesita funcionar a esa velocidad cuando se ejecuta una tarea sencilla, como un editor de texto que podría funcionar perfectamente a 500 MHz. Esto reduce la potencia al disminuir la intensidad de corriente, el voltaje y la frecuencia.