Cuando las GPUs Atacan: Rowhammer Va Más Allá de la CPU
En Arkeonix Labs hemos observado la evolución de Rowhammer con una mezcla de asombro y preocupación. Lo que comenzó como un fallo en la DRAM hace casi una década se ha convertido en un verdadero dolor de cabeza en materia de seguridad hardware. Dos equipos independientes han demostrado que las GPUs Nvidia RTX 3060 y RTX 6000 pueden ser utilizadas para ejecutar ataques Rowhammer tan efectivos que comprometen la memoria de la CPU anfitriona, otorgando al atacante el control total del sistema. No se trata de un riesgo teórico para proveedores de nube, laboratorios de investigación o cualquier persona que comparta GPUs de alta gama; es una explotación probada y repetible.
Los últimos ataques—denominados GDDRHammer y GeForge—no son solo mejoras incrementales. GDDRHammer indujo 129 bitflips por banco de memoria en la RTX 6000, un aumento de 64 veces respecto a ataques anteriores basados en GPU. Por su parte, GeForge logró un asombroso total de 1,171 bitflips en la RTX 3060 y 202 en la RTX 6000. Para ponerlo en perspectiva, el mejor esfuerzo del año pasado en las GPUs de Nvidia fue de apenas ocho bitflips. La magnitud de este salto es importante: más bitflips significan mayores probabilidades de romper el aislamiento de la memoria y corromper estructuras de datos críticas.
Bitflips con Beneficios: Cómo los Atacantes Obtienen Acceso Root
Esto no es un problema de integridad de datos ni una curiosidad hardware esotérica. Utilizando estas nuevas técnicas de Rowhammer, un actor malicioso con acceso a una GPU Nvidia afectada puede escalar privilegios desde una cuenta sin privilegios hasta obtener acceso root completo en la máquina anfitriona. Eso significa que pueden leer, escribir o borrar cualquier dato en la memoria del sistema, eludir todas las protecciones locales e incluso pivotar hacia otros sistemas. Es el tipo de explotación que los proveedores de nube temen, especialmente dado el precio de más de 8,000 dólares de las GPUs de alta gama, que a menudo se comparten entre muchos inquilinos.
GDDRHammer funciona aprovechando la forma en que se asigna y gestiona la memoria de la GPU. Al orquestar cuidadosamente las asignaciones de memoria (“masajeo de memoria”), el atacante puede desviar las tablas de páginas sensibles de la GPU lejos de las regiones de memoria protegidas y hacia territorios vulnerables. Una vez allí, el golpeo repetido induce los bitflips deseados—cambiando ceros por unos y viceversa en las entradas de la tabla de páginas. La consecuencia: el atacante puede redirigir las tablas de páginas para acceder a memoria arbitraria de la GPU e incluso apuntarlas a la memoria de la CPU anfitriona. Así es como se logra una completa compromisión, no solo de la GPU, sino de todo el sistema.
GeForge: La Otra Martillo Caer
El ataque GeForge sigue un guion similar pero se dirige al directorio de páginas de la GPU en lugar de a la tabla de páginas de último nivel. Tras una elaborada secuencia de asignaciones de memoria y un “drenaje” estratégico del grupo de memoria del controlador de la GPU, GeForge posiciona una entrada de directorio de páginas vulnerable donde puede ser golpeada. Un bitflip bien cronometrado allí permite al atacante forjar su propia tabla de páginas, otorgando acceso de lectura/escritura a cualquier parte del espacio de memoria de la GPU. A partir de ahí, es un pequeño salto hacia la completa compromisión del anfitrión. El equipo de investigación demostró abrir un shell root en un sistema en vivo para enfatizar el punto. 😈
Ambos ataques solo requieren que el IOMMU (Unidad de Gestión de Memoria de Entrada-Salida) esté desactivado—lo cual está, por defecto, en la mayoría de las configuraciones de BIOS. Habilitar IOMMU o ECC (Código de Corrección de Errores) en la GPU puede mitigar el riesgo, pero ambas medidas conllevan una penalización en el rendimiento. En el caso de ECC, se pierde memoria utilizable para la corrección de errores, y algunos variantes de Rowhammer incluso han demostrado eludir completamente ECC. La mayoría de las implementaciones en el mundo real priorizan la velocidad y la compatibilidad, no la máxima seguridad, por lo que la ventana para la explotación es inquietantemente amplia.
Seguridad Hardware: Siempre Persiguiendo el Reloj
Este no es un problema de nicho. La RTX 3060 y la RTX 6000—ambas parte de la generación Ampere de Nvidia—se utilizan ampliamente en entornos de investigación, IA y nube. Aunque los investigadores no han probado GPUs más nuevas, el historial de la industria sugiere que es solo cuestión de tiempo antes de que se demuestren ataques similares en otros lugares. Las mitigaciones hardware se quedan atrás respecto a las explotaciones publicadas, y muchas organizaciones no parchean ni reconfiguran sistemas hasta que los titulares aparecen. El hecho de que los ataques Rowhammer aún no se hayan visto en la naturaleza es un consuelo frío; su viabilidad por sí sola es una señal de alerta para cualquiera que dependa de infraestructura de GPU compartida.
Revisad la configuración de vuestro BIOS y considerad habilitar IOMMU, especialmente si estáis ejecutando cargas de trabajo críticas en hardware Nvidia compartido. Pero no esperéis que los proveedores os salven en el último minuto. La guía oficial de Nvidia hasta ahora es poco más que un enlace a un aviso anterior, sin nuevas mitigaciones o parches a la vista. La responsabilidad recae, como siempre, en vosotros para cerrar las puertas antes de que alguien más entre.
El Veredicto de Arkeonix Labs: ¿La Nueva Normalidad para la Seguridad de las GPUs?
Rowhammer ya no es solo una peculiaridad de la memoria; es una amenaza a nivel de sistema y entre componentes. GDDRHammer y GeForge han demostrado que las vulnerabilidades de la GPU pueden ser aprovechadas para comprometer hosts enteros, no solo las cargas de trabajo que se ejecutan en la tarjeta en sí. Las mitigaciones a nivel hardware y los parches de software no detienen estos ataques, que eluden la mayoría de las defensas existentes por diseño. Las únicas soluciones a corto plazo implican habilitar características que la mayoría de la gente deja deliberadamente desactivadas por razones de rendimiento. A largo plazo, la industria se enfrenta a una carrera armamentista continua en seguridad hardware, con nuevas tecnologías de memoria que presentan nuevas superficies de ataque. En 2023, los investigadores demostraron 1,171 bitflips en una RTX 3060 utilizando GeForge, estableciendo un nuevo referente para las explotaciones Rowhammer basadas en GPU. ⏰
