Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Nvidia alcanza los 200 teraFLOP FP64 emulados para informática científica

byKerem Gülen
19 enero 2026
in News, Tech
Home News
Share on FacebookShare on Twitter

Nvidia está empleando emulación de software para mejorar el rendimiento de la computación de punto flotante de doble precisión (FP64) en sus aceleradores de IA para computación de alto rendimiento (HPC) y aplicaciones científicas, según El Registro. Esta estrategia se produce cuando la compañía presenta sus GPU Rubin, que ofrecen 33 teraFLOPS de rendimiento máximo FP64, una disminución de 1 teraFLOP con respecto a la GPU H100. Las bibliotecas CUDA de Nvidia pueden alcanzar hasta 200 teraFLOPS de rendimiento de matriz FP64 mediante emulación de software, lo que representa un aumento de 4,4 veces con respecto a las capacidades de hardware de los aceleradores Blackwell. Dan Ernst, director senior de productos de supercomputación de Nvidia, afirmó que la precisión de la emulación iguala o supera la del hardware de núcleo tensorial. Sin embargo, Nicholas Malaya, miembro de AMD, cuestionó la eficacia del FP64 emulado en simulaciones científicas físicas en comparación con los puntos de referencia. FP64 sigue siendo fundamental para la informática científica debido a su rango dinámico, capaz de expresar más de 18,44 quintillones de valores únicos, en contraste con los 256 valores únicos de FP8 utilizados en los modelos de IA. Según Malaya, las simulaciones de HPC, a diferencia de las cargas de trabajo de IA, requieren una alta precisión para evitar la propagación de errores que pueden provocar la inestabilidad del sistema. El concepto de utilizar tipos de datos de menor precisión para emular FP64 se remonta a mediados del siglo XX. A principios de 2024, investigadores de los institutos de tecnología de Tokio y Shibaura publicaron un artículo que demuestra que las operaciones matriciales FP64 podrían descomponerse en múltiples operaciones INT8 en los núcleos tensoriales de Nvidia, logrando un rendimiento superior al nativo. Este método, conocido como esquema Ozaki, constituye la base de las bibliotecas de emulación FP64 de Nvidia, lanzadas a finales del año pasado. Ernst confirmó que el cálculo emulado mantiene la precisión de FP64 y difiere únicamente en su método de ejecución de hardware. Las GPU modernas cuentan con núcleos tensoriales de baja precisión, como los de Rubin, que ofrecen 35 petaFLOPS de cómputo denso FP4. Estos núcleos son más de 1000 veces más rápidos que los componentes específicos de FP64. Ernst explicó que la eficiencia de estos núcleos de baja precisión llevó a explorar su uso para la emulación de FP64, alineándose con la tendencia histórica en supercomputación de aprovechar el hardware disponible. AMD ha expresado reservas con respecto a la precisión de la emulación FP64. Malaya señaló que el enfoque funciona bien para sistemas numéricos bien condicionados, como los puntos de referencia Linpack de alto rendimiento (HPL), pero puede fallar en sistemas menos condicionados que se encuentran en la ciencia de materiales o en códigos de combustión. También destacó que los algoritmos de Nvidia para la emulación de FP64 no son totalmente compatibles con IEEE y no tienen en cuenta matices como ceros positivos versus ceros negativos o errores de «no es un número». Estas discrepancias pueden provocar que pequeños errores se propaguen y afecten los resultados finales. Malaya añadió que el esquema Ozaki aproximadamente duplica el consumo de memoria para las matrices FP64. El próximo MI430X de AMD mejorará específicamente el rendimiento del hardware de precisión simple y doble utilizando su arquitectura de chiplet. Ernst reconoció algunas limitaciones, pero sostuvo que cuestiones como los ceros positivos/negativos no son críticas para la mayoría de los profesionales de HPC. Nvidia ha desarrollado algoritmos complementarios para detectar y mitigar problemas como los números infinitos y los no numéricos. Afirmó que el aumento de la sobrecarga de memoria es relativo a la operación, no a toda la aplicación, siendo las matrices típicas de unos pocos gigabytes. Ernst argumentó que los problemas de cumplimiento de IEEE a menudo no surgen en casos de multiplicación de matrices, especialmente en operaciones DGEMM. La emulación beneficia principalmente a un subconjunto de aplicaciones HPC que dependen de operaciones de multiplicación de matriz general densa (DGEMM). Malaya estimó que entre el 60% y el 70% de las cargas de trabajo de HPC, particularmente aquellas que dependen de FMA vectorial, ven poco o ningún beneficio de la emulación. Para cargas de trabajo con muchos vectores, como la dinámica de fluidos computacional, las GPU Rubin de Nvidia deben usar aceleradores vectoriales FP64 más lentos dentro de sus núcleos CUDA. Ernst respondió que los FLOPS teóricos no siempre se traducen en un rendimiento utilizable, particularmente cuando el ancho de banda de la memoria actúa como un cuello de botella. Se espera que Rubin, con 22 TB/s de memoria HBM4, ofrezca un mayor rendimiento en el mundo real en estas cargas de trabajo a pesar del rendimiento más lento del FP64 vectorial. La viabilidad de la emulación FP64 se pondrá a prueba a medida que entren en funcionamiento nuevas supercomputadoras que incorporen las GPU Blackwell y Rubin de Nvidia. Los algoritmos pueden mejorar con el tiempo dada su naturaleza basada en software. Malaya indicó que AMD también está explorando la emulación de FP64 en chips como el MI355X a través de indicadores de software. Hizo hincapié en que el cumplimiento de IEEE validaría el enfoque al garantizar la coherencia de los resultados con silicio dedicado. Malaya sugirió que la comunidad debería establecer un conjunto de aplicaciones para evaluar la confiabilidad de la emulación en diferentes casos de uso.


Crédito de imagen destacada

Tags: Nvidia

Related Posts

Microsoft impulsa una actualización OOB de emergencia para solucionar el bucle de reinicio de Windows 11

Microsoft impulsa una actualización OOB de emergencia para solucionar el bucle de reinicio de Windows 11

19 enero 2026
Threads alcanza los 141 millones de usuarios diarios para reclamar el trono móvil de X

Threads alcanza los 141 millones de usuarios diarios para reclamar el trono móvil de X

19 enero 2026
Las integraciones de Google Wallet y Tasks surgen en la nueva filtración de Pixel 10

Las integraciones de Google Wallet y Tasks surgen en la nueva filtración de Pixel 10

19 enero 2026
iOS 27: todo lo que sabemos hasta ahora

iOS 27: todo lo que sabemos hasta ahora

19 enero 2026
Walmart mantiene la prohibición de Apple Pay en las tiendas de EE.UU. para 2026

Walmart mantiene la prohibición de Apple Pay en las tiendas de EE.UU. para 2026

19 enero 2026
Bluesky lanza la insignia Live Now y las etiquetas de efectivo en una actualización importante

Bluesky lanza la insignia Live Now y las etiquetas de efectivo en una actualización importante

16 enero 2026

Recent Posts

  • Microsoft impulsa una actualización OOB de emergencia para solucionar el bucle de reinicio de Windows 11
  • Musk busca 134.000 millones de dólares de OpenAI y Microsoft
  • Threads alcanza los 141 millones de usuarios diarios para reclamar el trono móvil de X
  • Las integraciones de Google Wallet y Tasks surgen en la nueva filtración de Pixel 10
  • iOS 27: todo lo que sabemos hasta ahora

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.