Cuando un perro ladra en un juguete chirriante o un mecánico de repente deja de hablar a mitad de la oración, no necesita un doctorado en ciencia cognitiva para descubrir qué está sucediendo, solo miras, escuchas y entiendes. Pero para los modelos de IA multimodal, este simple reflejo humano sigue siendo sorprendentemente difícil de replicar. A pesar de todos los modelos recientes de «frontera» como GPT-4O y Gemini 1.5 Pro, la mayoría de ellos todavía sueltan cuando se ven obligados a sintetizar realmente lo que ven y escuchar. Ese es exactamente el problema que Maverix está tratando de resolver.
Donde los puntos de referencia se quedan cortos, y Maverix entra en
Los principales puntos de referencia multimodales de hoy podrían afirmar que prueban el razonamiento del mundo real, pero muchos de ellos hacen trampa. Recompensan modelos que pueden pasar con solo visión o simplemente transcripciones de texto, en lugar de obligarlos a integrar múltiples sentidos como lo hacen los humanos. Maverix (Abajo, el índice de razonamiento de evaluación audiovisual multimodal) es un nuevo punto de referencia que finalmente plantea la barra al requerir un razonamiento audiovisual estrechamente acoplado en 700 videos y más de 2.500 preguntas.
Piense en ello como un curso de bloqueo en sentido común para la IA: si escucha un zumbido y ves a una abeja cerca de la cámara, probablemente deberías descartar «dispositivo mecánico fuera de la pantalla». Pero Maverix no solo tiene modelos a mano algunos rompecabezas fáciles. Viene con preguntas de opción múltiple de ocho opciones (para matar las conjeturas) y las indicaciones abiertas (para probar la comprensión real), empujando modelos más allá del reconocimiento de patrones en la coordinación cognitiva completa.
Preguntas del mundo real, complejidad humana real
Las preguntas de Maverix están diseñadas como pruebas psicológicas de Rorschach para máquinas, que cubren el razonamiento causal, la inferencia emocional, la conciencia espacial y el contexto dinámico. Imagine un video de dos personas discutiendo. ¿Están luchando por el real, actuando en una película o simplemente imitando a WWE Wrestling para reír? Esa respuesta podría depender de la bofetada y La pista de risas. Necesitas ver y escuchar para entender.
Para que todo funcione, el equipo de Maverix construyó una tubería meticulosa que combina la experiencia humana con la validación de IA. Cada video viene con subtítulos, sonidos categorizados (habla, música, ruido natural) y fotogramas clave anotados. Cada pregunta se examina para garantizar que los atajos unimodales, como solo leer los subtítulos, no lo corten. Si un modelo pudiera responder sin usar ambas modalidades, la pregunta se reescribe o se arroja.
Entonces, ¿qué tan bien funcionan realmente el AIS de hoy?
No es genial. Incluso con acceso directo al audio y el video, el mejor artista, Gemini 1.5 Pro, obtuvo alrededor del 71.9% de precisión. Eso está cerca de los humanos, pero aún por detrás. Los humanos, con una entrada audiovisual completa, registran más del 80%. Pero aquí está el pateador: algunos modelos de código abierto apenas rompen el 30%. Y cuando elimina el audio o el video, el rendimiento cae como un micrófono.
En tareas abiertas donde los modelos deben generar sus propias explicaciones, las cosas se vuelven más desordenadas. El modelo promedio obtuvo solo 1.9 de 5 en coherencia y razonamiento juzgados con GPT-4O. Los humanos anotaron 2.79. Esa brecha se amplía aún más cuando las tareas involucran señales emocionales complejas o eventos fuera de la pantalla, como adivinar por qué una multitud cambia las mesas en un juego de póker o si dos bailarines están peleando o simplemente ensayan.
No todos los modelos luchan de la misma manera
Una de las contribuciones más reveladoras de Maverix es cómo expone los diferentes modelos realmente confiar en. Gemini funciona mejor cuando se le da audio RAW, mientras que la mayoría de los otros modelos funcionan mejor con los subtítulos. Eso dice mucho sobre lo que está sucediendo debajo del capó: algunos modelos «escuchan», otros simplemente «leen». Pero ninguno coincide con la percepción a nivel humano en todos los ámbitos.
Curiosamente, las tareas como las compras, donde los datos estructurados y objetivos son donde brillan las máquinas. ¿Pero para los comentarios deportivos, la estrategia de juego o la interpretación de las emociones humanas? Los humanos los aplastan. Estas brechas muestran que la IA actual es mucho mejor en los catálogos de escaneo que analizar los matices sociales o el contexto que evoluciona con el tiempo.
Los niveles de dificultad son importantes, y también la modalidad
Las tareas fáciles dieron el mayor impulso de las entradas multimodales, lo que sugiere que algunos modelos usan audio y video para refinar respuestas obvias. Pero cuando las preguntas se volvieron más difíciles, muchos modelos se inclinaron fuertemente en la visión y el audio ignorado. El soneto Claude 3.5, por ejemplo, mejoró 41.5% en videos fáciles con entrada multimodal, pero solo el 17% en los duros.
Esto resalta un problema más profundo: la mayoría de los modelos no fusionan realmente las modalidades. Los están apilando. Puede darles a los audio y un video, pero a menos que el modelo necesidades Ambos para resolver la tarea, elegirá un favorito. Maverix tiene como objetivo cambiar eso diseñando preguntas que exigen una verdadera fusión, donde la respuesta depende de la interacción entre el sonido y la vista.
Para cerrar la brecha de rendimiento, necesitaremos mejores arquitecturas que traten el audio como más que una ocurrencia tardía. Necesitaremos nuevas estrategias de capacitación que recompense la comprensión sincronizada en lugar de las predicciones aisladas. Y, sobre todo, necesitaremos puntos de referencia como Maverix que no se conforman con lo que es fácil de medir, pero haga las preguntas difíciles sobre cómo las máquinas realmente entender.
Entonces, la próxima vez que su asistente de IA arruine un comando simple o lea mal un tono, recuerde: puede que no sea sordo, simplemente no ha pasado la prueba de Maverix todavía.