El Asistente de AI Gemini de Google ahora permite cargas de archivos de audio, lo que permite a los usuarios transcribir, resumir y extraer información clave de las grabaciones. Esta nueva característica convierte hasta 10 minutos de memorandos de voz, reuniones, conferencias y entrevistas en documentos de búsqueda directamente dentro del entorno AI. Las cargas de archivos de audio son compatibles en las aplicaciones web y móviles. Los usuarios pueden acceder a la función a través de la interfaz estándar de archivos-sopload. Esto difiere del procesamiento de comandos de voz en tiempo real de Gemini Live, ya que la nueva función procesa el audio pregrabado para la extracción y el análisis de datos. Josh Woodward, vicepresidente de Géminis de Google, declaró que la carga de archivos de audio era la característica más solicitada de los usuarios de Gemini. Esta demanda destaca la necesidad de procesamiento de audio simplificado dentro del asistente de IA.
Precisión de transcripción e integración de características
Durante las pruebas, Gemini transcribió con precisión varios tipos de audio, incluidos bocetos de comedia y conversaciones telefónicas, con solo errores menores en el reconocimiento de nombres. El sistema también identificó de manera efectiva elementos clave y generó listas de tareas pendientes desde el contenido de audio. La adición de procesamiento de audio se alinea con las recientes integraciones de Gemini, como implementaciones en varias aplicaciones, pruebas de una interfaz visual basada en tarjetas y opciones de personalización ampliada. Estas actualizaciones mejoran colectivamente la funcionalidad y la experiencia del usuario de Gemini.
Comparación con otros asistentes de IA
Si bien las capacidades de audio de Gemini no son únicas, son comparables a características de competidores como ChatGPT, que utiliza su modelo de transcripción Whisper. Claude de Anthrope también admite el procesamiento de audio en ciertas herramientas de desarrollador, y la perplejidad puede extraer datos de los videos de YouTube. Gemini tiene como objetivo centrarse en los casos de uso cotidiano para una base de usuarios amplia.
Procesamiento de datos de audio avanzado
Más allá de la simple transcripción, Gemini permite a los usuarios solicitar la simplificación del lenguaje, extraer comentarios específicos de los altavoces, generar preguntas del contenido de audio o crear guías de estudio a partir de discusiones grabadas. Estas opciones proporcionan herramientas para manipular y reutilizar eficientemente la información de audio.
Limitaciones de la función de audio
El límite actual de 10 minutos en las cargas de archivos de audio restringe su aplicabilidad para grabaciones más largas. Los usuarios de nivel libre también enfrentan límites de uso diarios en el procesamiento de audio. Estas limitaciones pueden afectar a los usuarios con extensas necesidades de procesamiento de audio. Google no ha publicado precios específicos para el procesamiento de audio de alto volumen. Sin embargo, el procesamiento de audio está integrado en la cuota de Géminis regular. Esto sugiere que los usuarios deben administrar su uso para evitar exceder los recursos asignados.





