GPUHammer: la nueva amenaza que corrompe la memoria de las GPUs

 

La ciberseguridad no deja de enfrentarse a nuevos desafรญos, y uno de los mรกs recientes amenaza directamente a las GPU utilizadas en inteligencia artificial: GPUHammer. Esta vulnerabilidad de bajo nivel permite ejecutar ataques de corrupciรณn de memoria en unidades de procesamiento grรกfico, un territorio hasta ahora poco explorado por los investigadores de seguridad.

Con GPUHammer se ha demostrado por primera vez que es posible aplicar la tรฉcnica RowHammer en memorias GDDR6, afectando incluso modelos de IA sin acceso directo ni privilegios especiales. El impacto potencial abarca desde el sabotaje de modelos en la nube hasta el robo de claves en algoritmos postcuรกnticos. Vamos a desgranar todo lo que se sabe hasta la fecha.

ยฟQuรฉ es GPUHammer y por quรฉ se considera tan peligroso?

GPUHammer es una nueva amenaza que adapta la tรฉcnica RowHammer al contexto de las GPUs, especialmente aquellas con memoria GDDR6 como la NVIDIA A6000. Tradicionalmente, RowHammer se habรญa limitado a explotaciones sobre memorias DDR de CPUs, donde al activar reiteradamente una fila de memoria se inducen cambios elรฉctricos que afectan a filas colindantes, provocando inversiones de bits.

El gran hallazgo es que este mismo efecto puede replicarse en entornos grรกficos, lo que abre un grave vector de ataque en infraestructuras de inteligencia artificial que dependen de estas tarjetas. En pruebas realizadas por la Universidad de Toronto, se demostrรณ que un solo cambio de bit era suficiente para corromper un modelo entrenado sobre ImageNet y reducir su precisiรณn del 80โ€ฏ% al 0,1โ€ฏ%.

Esta modificaciรณn silente de la memoria tiene consecuencias devastadoras en tareas crรญticas como el diagnรณstico mรฉdico por IA, detecciรณn de fraudes financieros o conducciรณn autรณnoma.

ยฟCรณmo se ejecuta un ataque GPUHammer?

Uno de los principales retos del experimento fue desarrollar tรฉcnicas especรญficas para identificar quรฉ direcciones de memoria compartรญan banco dentro de la GDDR6. Debido a que las GPUs no exponen directamente direcciones fรญsicas a nivel de usuario, los investigadores invirtieron el proceso observando latencias de acceso a pares de direcciones para deducir si pertenecรญan a filas adyacentes.

Ademรกs, se superรณ el problema de la menor tasa de activaciรณn posible en GDDR6 frente a DDR4 mediante un enfoque multihilo/multiwarp, aprovechando la arquitectura paralela de las GPUs. Cada hilo ejecutaba accesos diseรฑados para maximizar el martilleo (hammering) sobre la misma fila, consiguiendo hasta 500.000 activaciones por ventana de refresco.

Por รบltimo, se implementรณ una sincronizaciรณn con las รณrdenes de refresco TRR mediante retardo por warp, derrotando una de las principales defensas actuales en memorias modernas.

Impacto real sobre modelos de IA y redes neuronales

gpuhammer

Una de las demostraciones mรกs inquietantes es la capacidad de GPUHammer para sabotear directamente modelos de redes neuronales profundas (DNN). Al invertir bits crรญticos en pesos almacenados en formato FP16 (particularmente el bit mรกs significativo del exponente), se logra una degradaciรณn brutal del rendimiento.

Esto fue comprobado en modelos como ResNet50, VGG16 o DenseNet161, reduciendo su precisiรณn por debajo del 1โ€ฏ% con un solo bit alterado. Estos ataques son especialmente peligrosos en entornos de procesamiento compartido como servicios de IA en la nube o infraestructuras multitenant, donde mรบltiples usuarios comparten la misma GPU sin saberlo.

Ni siquiera es necesario acceso al software del modelo vรญctima: basta con manipular ubicaciones de memoria adyacentes dentro de la misma tarjeta grรกfica.

ยฟQuรฉ GPUs estรกn afectadas actualmente?

Hasta la fecha, el ataque solo ha demostrado ser viable sobre GPUs NVIDIA RTX A6000 con memoria GDDR6. Otras tarjetas como la RTX 3080 no presentaron inversiones de bits, posiblemente por diferencias entre fabricantes de DRAM, materiales de encapsulado o condiciones tรฉrmicas.

Los modelos NVIDIA A100 (HBM) y las nuevas H100 o RTX 5090 (con GDDR7 y ECC en chip) tampoco resultaron vulnerables. En estos casos, las correcciones de error integradas son suficientes para contrarrestar los flips individuales producidos por GPUHammer.

Medidas de mitigaciรณn recomendadas

La defensa principal recomendada por NVIDIA y la comunidad investigadora es la activaciรณn del sistema de correcciรณn de errores (ECC), mediante el comando nvidia-smi -e 1. Eso permite detectar y corregir de forma proactiva cualquier inversiรณn de bit รบnica.

Sin embargo, esta soluciรณn no es gratuita: activar ECC puede reducir el rendimiento hasta un 10โ€ฏ% en tareas de inferencia y restar un 6,25โ€ฏ% de memoria disponible. Se sugiere su uso selectivo en cargas de entrenamiento o en entornos crรญticos como centros de datos y nubes pรบblicas.

Otras recomendaciones incluyen monitorizar logs del sistema en busca de errores corregidos, aislar memoria entre usuarios y verificar la integridad de los modelos mediante hashes o checksums en pipelines sensibles.

Casos avanzados: CrowHammer y ataques criptogrรกficos

Casi al mismo tiempo que el descubrimiento de GPUHammer, se hizo pรบblica una variante llamada CrowHammer, con implicaciones devastadoras para la criptografรญa postcuรกntica. En un trabajo conjunto entre NTT Social Informatics Laboratories y CentraleSupรฉlec, se demostrรณ la posibilidad de recuperar la clave privada del algoritmo FALCON (candidato a estรกndar por el NIST) tras varios cientos de millones de firmas y una sola inversiรณn de bit en ubicaciones especรญficas.

Esto demuestra que los ataques de RowHammer no solo comprometen modelos de IA, sino tambiรฉn la seguridad de algoritmos diseรฑados para resistir incluso amenazas de computaciรณn cuรกntica.

Riesgos regulatorios y cumplimiento normativo

Los efectos de GPUHammer van mรกs allรก de lo puramente tรฉcnico, ya que pueden poner en jaque el cumplimiento normativo en sectores regulados. Un modelo que toma decisiones crรญticas con precisiรณn distorsionada por un bit flip puede violar estรกndares como la ISO/IEC 27001, la Ley de IA de la Uniรณn Europea o normativas especรญficas del รกmbito sanitario y financiero.

En este sentido, la memoria de GPU debe considerarse parte integral de las auditorรญas de ciberseguridad de cualquier organizaciรณn que trabaje con inteligencia artificial.

GPUHammer ha encendido todas las alarmas en el รกmbito de la seguridad hardware. Lo que comenzรณ como una tรฉcnica acadรฉmica aplicada a la DRAM de CPUs ahora se presenta como una seria amenaza para la cadena de fiabilidad de la inteligencia artificial moderna. La posibilidad de manipular modelos sin acceso directo, corromper cargas de trabajo de terceros en entornos compartidos y debilitar algoritmos criptogrรกficos de รบltima generaciรณn plantea un escenario donde proteger las memorias de GPU ya no es opcional, sino parte esencial de cualquier estrategia de defensa, rendimiento mediante. La activaciรณn de ECC, la segmentaciรณn de memoria entre usuarios y la vigilancia activa de registros del sistema se perfilan como armas clave frente a esta nueva generaciรณn de ataques silenciosos.

[relacionado url=ยปhttps://www.guiahardware.es/virtualizacion-de-gpu-que-es-y-que-ventajas-tiene/ยป]

Isaac

Isaac

Tรฉcnico electrรณnico y experto en el sector de los semiconductores al que le encanta escribir y compartir sus conocimientos con los demรกs, especialmente si son de hardware.

Comentarios

Deje una respuesta

Guรญa Hardware
Logo