Elon Musk ha vuelto a acaparar los titulares al mostrarle al mundo un vistazo a Cortex, la supercomputadora de entrenamiento de inteligencia artificial de X, actualmente en construcción en La planta Giga Texas de TeslaEn un video que es a la vez asombroso y surrealista, Musk mostró cómo se ve realmente una GPU de IA de 1000 millones de dólares. Pero si eso no fuera suficiente para dejar boquiabiertos a los entusiastas de la tecnología, Musk recientemente recurrió a su plataforma, X, para revelar que la verdadera maravilla, Colossus, un clúster de entrenamiento de 100.000 H100, ya está oficialmente en línea.
¿Qué son exactamente los clústeres de IA?
Un clúster de IA es como un cerebro gigante formado por miles de computadoras que trabajan juntas para procesar cantidades masivas de información a la velocidad del rayo. En lugar de una sola computadora, los clústeres como Colossus utilizan miles de máquinas especializadas, cada una equipada con chips potentes (llamados GPU), diseñados para manejar los cálculos increíblemente complejos necesarios para la inteligencia artificial.
Estos grupos entrenan modelos de IA alimentándolos con grandes cantidades de datos: piense en ello como si estuviera enseñando a un estudiante dándole miles de libros para leer en poco tiempo.
Todos los detalles sobre Colossus de xAI
Musk no se contuvo a la hora de alardear, afirmando que Colossus es “el sistema de entrenamiento de inteligencia artificial más poderoso del mundo”. Aún más impresionante es el hecho de que este gigantesco proyecto se construyó “de principio a fin” en solo 122 días.
Si tenemos en cuenta la escala y la complejidad involucradas, no es una hazaña menor. Los servidores para el clúster xAI fueron proporcionados por Dell y Supermicro, y si bien Musk no reveló una cifra exacta, las estimaciones sitúan el costo entre 3.000 y 4.000 millones de dólares.
Este fin de semana, el @xAI El equipo puso en marcha nuestro grupo de capacitación Colossus 100k H100. De principio a fin, se realizó en 122 días.
Colossus es el sistema de entrenamiento de IA más potente del mundo. Además, duplicará su tamaño hasta alcanzar los 200.000 (50.000 H200) en unos meses.
Excelente…
— Elon Musk (@elonmusk) 2 de septiembre de 2024
Ahora es aquí donde las cosas se ponen realmente interesantes. Aunque el sistema está operativo, no está claro exactamente cuántos de estos clústeres están completamente funcionales en la actualidad. Esto no es algo poco común en sistemas de esta magnitud, ya que requieren una depuración y optimización exhaustivas antes de funcionar a toda máquina. Pero cuando se trata de algo de la escala de Colossus, cada detalle cuenta, e incluso una fracción de su potencial total podría superar a la mayoría de los demás sistemas.
El futuro parece aún más intenso. Se prevé que Colossus duplique su tamaño, con planes de añadir otras 100.000 GPU, divididas entre las actuales unidades H100 de Nvidia y los muy esperados chips H200. Esta actualización potenciará principalmente el entrenamiento del último y más avanzado modelo de IA de xAI, Grok-3, que tiene como objetivo ampliar los límites de lo que consideramos posible en IA.
Crédito de la imagen destacada: Bolivia Inteligente/Unsplash