La industria de los semiconductores está siendo testigo de una rivalidad fascinante, ya que Advanced Micro Devices (AMD) desafía el dominio de NVIDIA en el mercado de aceleradores de IA. Con su Instinct MI300X, AMD está preparada para alterar el status quo, ofreciendo una alternativa rentable y potente al H100 de NVIDIA. El aumento de la demanda de chips de IA, impulsado por el crecimiento explosivo en la adopción de IA y la expansión de los centros de datos, intensifica aún más esta competencia.
En el acelerado campo de la tecnología de chips de IA, AMD está logrando avances notables al desafiar el dominio de NVIDIASi bien NVIDIA actualmente domina la mayor parte del mercado, Se estima que es superior al 80%AMD está ganando impulso de forma constante, en particular en el sector de los centros de datos. Este aumento se ve impulsado por la sólida demanda de su chip de inteligencia artificial MI300X, con Ventas proyectadas alcanzando una impresionante cifra de 4 mil millones de dólares, lo que representa aproximadamente el 15% de los ingresos anticipados de AMD.
En lo que respecta al rendimiento, los chips H100 de NVIDIA siguen siendo ampliamente reconocidos por su destreza en las cargas de trabajo de IA, especialmente en el ámbito de la formaciónSin embargo, el MI300X de AMD está demostrando su valía en tareas de IA específicas, particularmente en inferencia, donde algunos afirman que incluso supera al buque insignia H100 de NVIDIA.
En términos de asociaciones y adopción en la industria, NVIDIA cuenta con colaboraciones consolidadas con los principales proveedores de la nube y goza de una amplia aceptación en diversos sectores. Por otro lado, AMD está forjando alianzas activamentecomo su alianza con TensorWave, para ampliar su alcance y refinar su tecnología para tareas centradas en IA.
La interacción dinámica entre estos dos gigantes promete un futuro emocionante para el mercado de chips de IA. Hablé con Darrick Horton, director ejecutivo de Onda tensorapara entender por qué ha puesto todos sus huevos de IA en la canasta de AMD.
Instinct MI300X de AMD: ¿Un cambio radical?
El MI300X cuenta con una mayor capacidad de memoria que el H100, lo que lo hace ventajoso para tareas de IA específicas, especialmente aquellas que involucran modelos de lenguaje grandes. Si bien el H100 generalmente ofrece mayor potencia de cómputo en bruto, el MI300X se muestra prometedor en tareas de inferencia y tamaños de lotes más grandes.
Aunque los precios exactos no son públicos, se dice que la MI300X es más barata y ofrece una mejor relación precio-rendimiento. Sin embargo, la plataforma CUDA de NVIDIA goza de una adopción más amplia y un ecosistema de software más maduro.
“Una de las características más destacadas del MI300X es su arquitectura de memoria superior”, me dijo Horton. “Con hasta 192 GB de memoria HBM3 unificada, el MI300X supera significativamente al H100, lo que permite el manejo sin problemas de modelos y conjuntos de datos más grandes directamente en el acelerador. Esto reduce la necesidad de accesos a la memoria fuera del chip, que pueden ser un cuello de botella en las cargas de trabajo de IA, lo que conduce a un mejor rendimiento, capacidades de almacenamiento en caché y menor latencia”.
Otras consideraciones que llevaron a TensorWave a asociarse con AMD incluyen la eficiencia energética y el ecosistema de software de AMD.
“El MI300X está diseñado teniendo en cuenta la eficiencia energética, ofreciendo un rendimiento excepcional por vatio”, dijo Horton. “Esto es particularmente importante a medida que las cargas de trabajo de IA escalan, lo que permite a las empresas lograr un alto rendimiento sin aumentar los costos de energía. Esta eficiencia es un factor crítico en implementaciones a gran escala, donde los costos operativos pueden ser una preocupación importante. La plataforma ROCm (Radeon Open Compute) de AMD continúa madurando y ofrece un soporte sólido para cargas de trabajo de IA y HPC. Naturaleza de código abierto de ROCm Proporciona a los desarrolladores flexibilidad y la capacidad de optimizar sus aplicaciones para el MI300X, algo que es cada vez más importante a medida que los modelos de IA se vuelven más sofisticados”.
La arquitectura híbrida de MI300X combina capacidades de CPU y GPU, lo que permite optimizar el rendimiento en diversas cargas de trabajo y escalar de manera eficiente en múltiples aceleradores. Todo esto presenta una imagen de una alternativa convincente a NVIDIA.
Por supuesto, AMD y NVIDIA están adoptando enfoques muy diferentes para construir sistemas GPU a gran escala. AMD prefiere el estándar abierto PCIe 5.0, que ofrece una compatibilidad más amplia y costos potencialmente más bajos, mientras que NVIDIA confía en su interconexión NVLink de alto ancho de banda para un mejor rendimiento en ciertos escenarios, pero con posibles limitaciones de escalabilidad y costos más altos.
Una misión para democratizar el acceso a la IA
El modelo de precios de TensorWave parece apuntar a democratizar el acceso a la infraestructura de IA de alto rendimiento, y el menor costo informado de alquilar GPU AMD a través de la plataforma puede contribuir a que las tecnologías de IA avanzadas sean más accesibles para una gama más amplia de organizaciones.
“Cuando se trata de la adquisición de GPU, no se trata de un proceso sencillo de pago con un solo clic”, dijo Horton. “El proceso suele retrasarse por retrasos en la producción, lo que hace que los plazos de envío sean impredecibles. Además, los costos iniciales pueden ser prohibitivos. Ya hemos construido nuestros centros de datos con miles de GPU MI300X, listas para implementarse cuando usted lo esté. Pero digamos que logra obtener su hardware. Ahora, se enfrenta al desafío de construir, administrar y mantener ese hardware y toda la infraestructura del centro de datos. Este es un proceso costoso y que requiere mucho tiempo y que no todos están preparados para manejar. Con nuestro servicio en la nube, esas preocupaciones desaparecen”.
Si bien NVIDIA actualmente ocupa una posición dominante, Instinct MI300X de AMD y el enfoque innovador de TensorWave están preparados para revolucionar el mercado de aceleradores de IA.
“NVIDIA ha sido la fuerza dominante en el mercado de aceleradores de IA, pero creemos que es hora de que eso cambie”, dijo Horton. “Nuestro objetivo es brindar opciones al mercado. Queremos que los desarrolladores se liberen de la dependencia de los proveedores y dejen de depender de herramientas que no sean de código abierto, donde están a merced del proveedor. Creemos en la elección. Creemos en la opción de código abierto. Creemos en la democratización de la computación. Estos principios fueron fundamentales cuando construimos y enfocamos nuestra nube en torno a los aceleradores AMD MI300X”.
TensorWave cree que esto es importante a medida que más PYMES y grandes empresas comienzan a aprovechar las herramientas de IA de la misma manera que las corporaciones ya lo hacen.
“Pensemos en las empresas de contabilidad, los despachos jurídicos y las instituciones de investigación”, afirma Horton. “Tienen enormes cantidades de datos históricos. Si pueden crear herramientas de IA que aprendan de estos conjuntos de datos, el potencial de obtener resultados comerciales positivos es enorme. Sin embargo, para lograrlo, será necesario procesar grandes conjuntos de datos (más de 250 000 tokens), lo que requerirá una gran cantidad de memoria y rendimiento del hardware. Y esto no es solo teórico: las empresas están trabajando activamente en soluciones de contexto largo en este momento”.
Una apuesta audaz en un juego de alto riesgo
TensorWave también cree que AMD se convertirá en el nuevo estándar a medida que los LLM alcancen nuevas alturas, lo que es un gran impulsor detrás de colocar todos sus chips en AMD (metáfora del blackjack intencionada).
“A medida que los modelos de IA siguen creciendo y haciendo un uso más intensivo de la memoria, las soluciones de NVIDIA tienen dificultades para competir con el MI300X en términos de relación precio-rendimiento. Tomemos como ejemplo el modelo Llama 3.1 405B de Meta. Ese modelo puede ejecutarse en menos de un nodo MI300X completo (8 GPU), mientras que requiere aproximadamente dos nodos con el H100B. Apostamos a lo grande a que la comunidad de IA está lista para algo mejor: más rápido, más rentable, de código abierto y fácilmente disponible.
Al duplicar su inversión en AMD, TensorWave mira hacia el futuro y desarrolla nuevas capacidades para democratizar un mayor acceso al poder computacional.
“Estamos desarrollando mecanismos de almacenamiento en caché escalables que mejoran drásticamente la eficiencia en el manejo de contextos largos”, afirmó Horton. “Esto permite a los usuarios interactuar con chats y documentos más grandes con latencias significativamente reducidas, lo que proporciona experiencias más fluidas y con mayor capacidad de respuesta incluso en las aplicaciones de inteligencia artificial más exigentes”.
Actualmente en versión beta, TensorWave proyecta implementarlo para sus usuarios en el cuarto trimestre de 2024.
Las ventajas técnicas del MI300X, combinadas con el enfoque de TensorWave en la democratización y la rentabilidad, presentan una alternativa atractiva para las empresas que buscan soluciones de IA de alto rendimiento.
Apueste por un futuro más brillante
El “see, raise, and call” entre AMD y NVIDIA sin duda impulsará más avances en la tecnología de GPU y las aplicaciones de IA en toda la industria. A medida que la demanda de IA siga creciendo, ambas empresas desempeñarán papeles cruciales en la configuración del futuro de esta tecnología transformadora.
Aún queda por ver si AMD podrá superar a NVIDIA. Sin embargo, su presencia en el mercado fomenta una sana competencia, la innovación y, en definitiva, beneficia a todo el ecosistema de IA. La batalla por la supremacía en IA está lejos de terminar y el mundo observa con expectación cómo estos dos titanes de la tecnología siguen ampliando los límites de lo posible.