El CEO de Google Deepmind, Demis Hassabis, reveló planes para eventualmente fusionar a la IA de Géminis de la compañía con su generador de videos VEO, con el objetivo de enseñarle más a la IA sobre el mundo físico, durante una aparición reciente sobre el reciente. Posible podcast.
Hassabis explicó que la estrategia se alinea con su visión de un «asistente digital universal» capaz de ayudar a los usuarios en escenarios del mundo real. «Siempre hemos construido Géminis, nuestro modelo de base, para ser multimodal desde el principio», afirmó en el podcast cohostado por Reid Hoffman.
Este movimiento refleja un cambio más amplio de la industria hacia los modelos versátiles «Omni». Las últimas versiones de Géminis de Google ya manejan la generación de audio, imagen y texto, mientras que rivales como OpenAI habilitan creación de imágenes en chatgpt y amazon intención Para lanzar un modelo «de cualquiera de cualquier».
El desarrollo de estos modelos completos exige grandes conjuntos de datos que abarcan videos, imágenes, audio y texto. Hassabis insinuó que los datos de video que alimentan VEO se originan en gran medida en YouTube, una plataforma propiedad de Google.
Elaboró eso al procesar contenido extenso en YouTube, VEO aprende sobre la física del mundo real. «[Veo 2] Puede entender, ya sabes, la física del mundo «, comentó Hassabis sobre el modelo viendo» muchos videos de YouTube «.
Google previamente reconocido a TechCrunch Sus modelos «pueden estar» entrenados en «algunos» contenido de YouTube, de acuerdo con los acuerdos con los creadores. Los informes sugieren que Google actualizó sus términos de servicio el año pasado, lo que potencialmente se está ampliando el acceso a los datos para fines de capacitación de IA.