NVIDIA para implementar interconexiones de GPU basadas en la luz para 2026

Nvidia es planificación Para implementar la comunicación basada en la luz entre sus GPU de inteligencia artificial para 2026, utilizando interconexiones de fotónica de silicio con ópticas copenadas (CPO) en sus plataformas de IA a escala de bastidores de próxima generación para lograr tasas de transferencia más altas con un consumo de energía reducido.

En la conferencia Hot Chips, NVIDIA proporcionó más detalles sobre sus próximas soluciones de interconexión de fotónica Quantum-X y Spectrum-X, que describe su llegada esperada en 2026. Estas soluciones representan un movimiento significativo hacia las interconexiones ópticas para gestionar las demandas crecientes de la transferencia de datos dentro de grandes grupos de GPU AI.

Se espera que la línea de tiempo de desarrollo de NVIDIA refleje de cerca la hoja de ruta Coupe (motor fotónico universal compacto), que se estructura en tres fases distintas. La fase inicial involucra un motor óptico diseñado para conectores OSFP, facilitando transferencias de datos de 1.6 TB/s al tiempo que reduce el consumo de energía simultáneamente. La segunda fase hace transiciones al embalaje COWOS que incorpora óptica copenazada, logrando así las tasas de transferencia de datos de 6.4 TB/s a nivel de placa base. La tercera fase se centra en lograr 12.8 TB/s dentro de los paquetes de procesadores, con el objetivo de disminuir aún más el uso de potencia y la latencia.

La necesidad de CPO proviene de los desafíos asociados con la interconexión de miles de GPU en grupos de IA a gran escala, lo que les exige que funcionen como un sistema unificado. Esta arquitectura requiere modificaciones a las configuraciones de red tradicionales. Específicamente, en lugar de que cada bastidor tenga su propio interruptor de nivel-1 (arriba de la tracción) conectado por cables cortos de cobre, los interruptores se reubican al final de la fila. Esta configuración establece una tela consistente de baja latencia que abarca múltiples bastidores. Esta reubicación aumenta la distancia entre los servidores y su interruptor primario, lo que hace que los cables de cobre sean sin prácticos para altas velocidades como 800 GB/s. En consecuencia, las conexiones ópticas se vuelven esenciales para casi todos los enlaces de servidor a conmutador y conmutador a conmutador.

Nvidia diseña un chip B30A más lento para cumplir con las restricciones de los Estados Unidos

El uso de módulos ópticos conectables en tales entornos presenta limitaciones inherentes. En estos diseños, las señales de datos salen del circuito integrado específico de la aplicación (ASIC), atraviesan la placa y los conectores, y posteriormente se convierten a luz. Este proceso introduce una pérdida eléctrica significativa, alcanzando aproximadamente 22 decibelios en canales de 200 GB/s. La compensación por esta pérdida requiere un procesamiento complejo, lo que aumenta el consumo de energía por puerto a 30W. Esto, a su vez, requiere un enfriamiento adicional e introduce puntos potenciales de falla. Nvidia afirma que estos problemas se vuelven cada vez más problemáticos a medida que se expande la escala de las implementaciones de IA.

CPO mitiga los inconvenientes asociados con los módulos ópticos tradicionales conectables integrando el motor de conversión óptica directamente junto con el interruptor ASIC. Esta proximidad permite que la señal se acople a fibra casi de inmediato, sin pasar por la necesidad de viajar sobre trazas eléctricas extendidas. Como resultado, la pérdida eléctrica se reduce a 4 decibelios, y el consumo de energía por puerto disminuye a 9W. Esta disposición también elimina numerosos componentes que podrían fallar, simplificando la implementación de interconexiones ópticas.

Nvidia afirma que la transición de los transceptores conectables convencionales e integración de motores ópticos directamente en Switch Silicon, facilitado por la plataforma Coupe de TSMC, produce mejoras sustanciales en la eficiencia, la confiabilidad y la escalabilidad. NVIDIA informa que CPO ofrece ventajas significativas sobre los módulos conectables, incluido un aumento de 3.5 veces en la eficiencia energética, una mejora 64 veces en la integridad de la señal, un aumento de 10 veces en la resistencia debido a la reducción de los dispositivos activos y aproximadamente un 30% de tiempos de despliegue más rápidos debido a los procedimientos de servicio y ensamblaje más simples.

NVIDIA planea introducir plataformas de interconexión óptica basadas en CPO para tecnologías Ethernet e InfiniBand. La compañía anticipa el lanzamiento de los conmutadores Quantum-X Infiniband a principios de 2026. Cada interruptor está diseñado para proporcionar 115 TB/s de rendimiento, acomodando 144 puertos que funcionan a 800 GB/s cada uno. El sistema también incorpora un ASIC con 14.4 TFLOP de procesamiento en la red y admite el protocolo de reducción de agregación jerárquica de 4ta generación de NVIDIA (Sharp), destinado a reducir la latencia para las operaciones colectivas. Estos interruptores utilizarán enfriamiento líquido.

Al mismo tiempo, NVIDIA se está preparando para integrar CPO en Ethernet a través de su plataforma Fotonics Spectrum-X, programada para su lanzamiento en la segunda mitad de 2026. Esta plataforma se basará en el Spectrum-6 ASIC, que alimentará dos dispositivos distintos: el SN6810, que ofrece 102.4 Tb/S de BandWidth a los 128 puertos a 800 GB/S, y el Snes, el Snes 40. TB/S y 512 puertos que operan a la misma velocidad. Ambos dispositivos también emplearán enfriamiento líquido.

Nvidia imagina que sus conmutadores basados en CPO conducirán nuevos grupos de IA diseñados para aplicaciones generativas de IA, que se están volviendo cada vez más grandes y complejas. Al utilizar CPO, estos grupos eliminarán miles de componentes discretos, lo que dará como resultado tiempos de instalación más rápidos, un servicio más fácil y un consumo de energía reducido por conexión. En consecuencia, se espera que los grupos que utilizan fotónicos Quantum-X Infiniband y Spectrum-X demuestren mejoras en las métricas como la confiabilidad del tiempo en que se convierten en el tiempo, el tiempo hasta la intención y la confiabilidad general a largo plazo.

NVIDIA enfatiza que la óptica copresionada no es simplemente una mejora opcional, sino un requisito fundamental para futuros centros de datos de IA. Esto sugiere que la compañía tiene la intención de posicionar sus interconexiones ópticas como un diferenciador clave y una ventaja sobre las soluciones de IA a escala de rack ofrecidas por competidores, como AMD. La adquisición de ENOSEMI de AMD es relevante en este contexto.

Un aspecto crítico de la Iniciativa de Photonics Silicon de NVIDIA es su estrecha alineación con la evolución de la plataforma Coupe (motor fotónico universal compacto) de TSMC. A medida que la plataforma de TSMC avanza en los próximos años, se espera que las plataformas CPO de NVIDIA mejoren correspondientemente. La primera generación del cupé de TSMC se construye apilando un circuito electrónico integrado de 65 nm (EIC) con un circuito integrado fotónico (PIC) utilizando la tecnología de envasado SOIC-X de la compañía.

La hoja de ruta TSMC Coupe se divide en tres etapas de desarrollo. La generación inicial involucra un motor óptico diseñado para conectores OSFP, que proporciona transferencia de datos de 1.6 TB/s al tiempo que reduce el consumo de energía simultáneamente. La segunda generación incorpora el embalaje de COWOS con óptica copensejada, lo que resulta en una velocidad de transferencia de datos de 6.4 TB/s a nivel de placa base. La tercera generación está diseñada para lograr 12.8 TB/s dentro de los paquetes de procesadores y tiene como objetivo reducir aún más el consumo de energía y la latencia.

Crédito de imagen destacado