Las GPU Blackwell de Nvidia enfrentan desafíos de sobrecalentamiento que afectan a los principales clientes tecnológicos. Los procesadores de próxima generación tienen dificultades para funcionar de manera efectiva en racks de servidores que albergan 72 GPU, lo que genera preocupaciones en empresas como Google, Meta y Microsoft sobre la implementación oportuna. Los informes indican que Nvidia está reevaluando sus diseños de bastidores varias veces debido a estos problemas de sobrecalentamiento, que corren el riesgo de dañar los componentes y limitar el rendimiento de la GPU. El consumo de energía previsto para estas configuraciones es de hasta 120 kW por bastidor.
Insiders informados La información que las GPU Blackwell de Nvidia para IA y computación de alto rendimiento (HPC) se han sobrecalentado en servidores de alta capacidad, lo que afecta los cronogramas de lanzamiento para los clientes que dependen de estas tecnologías. En un intento por abordar las complicaciones derivadas de estos problemas de sobrecalentamiento, Nvidia ha solicitado a sus proveedores que modifiquen los diseños de los racks repetidamente. Un portavoz de Nvidia enfatizó su enfoque colaborativo con los servicios en la nube y describió los cambios de diseño como una parte rutinaria del proceso de desarrollo.
Ajustes en el diseño para contrarrestar problemas de sobrecalentamiento.
Anteriormente, los retrasos en la rampa de producción de Blackwell se atribuían a un defecto de diseño que «mataba el rendimiento». El GPU Blackwell B100 y B200 utilice la tecnología de empaquetado CoWoS-L de TSMC, que integra dos chiplets para velocidades de transferencia de datos mejoradas de hasta 10 TB/s. Sin embargo, una discrepancia en las características de expansión térmica entre los chiplets de la GPU y otros componentes provocó deformaciones y fallas del sistema. Para resolver esto, Nvidia realizó modificaciones en las capas metálicas y las estructuras de protuberancias del silicio de la GPU.
El resultado de estas mejoras no entró en producción en masa hasta finales de octubre, y las fechas de envío previstas se retrasaron hasta finales de enero. Este retraso es fundamental para los clientes de Nvidia como Google, Metay microsoftque dependen de estas GPU para mejorar sus modelos de IA más potentes. Nvidia anteriormente promocionó los chips Blackwell como 30 veces más rápidos para tareas como responder a consultas de chatbot en comparación con modelos anteriores.
Se proyectó que los ingresos por chips Blackwell de Nvidia alcanzarían los 6 mil millones de dólares en el próximo trimestre, lo que destaca la alta demanda a pesar de las actuales limitaciones de suministro. Nvidia, que recientemente superó a Apple, es ahora la empresa más valiosa del mundo con una capitalización de mercado que se eleva a 3,482 billones de dólares. Sin embargo, los continuos reveses relacionados con los procesadores Blackwell amenazan con interrumpir los avances planificados en las capacidades de IA esenciales para los principales actores tecnológicos.
Crédito de la imagen destacada: NVIDIA