Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Google Gemini ahora transcribe archivos de audio

byAytun Çelebi
11 septiembre 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

El Asistente de AI Gemini de Google ahora permite cargas de archivos de audio, lo que permite a los usuarios transcribir, resumir y extraer información clave de las grabaciones. Esta nueva característica convierte hasta 10 minutos de memorandos de voz, reuniones, conferencias y entrevistas en documentos de búsqueda directamente dentro del entorno AI. Las cargas de archivos de audio son compatibles en las aplicaciones web y móviles. Los usuarios pueden acceder a la función a través de la interfaz estándar de archivos-sopload. Esto difiere del procesamiento de comandos de voz en tiempo real de Gemini Live, ya que la nueva función procesa el audio pregrabado para la extracción y el análisis de datos. Josh Woodward, vicepresidente de Géminis de Google, declaró que la carga de archivos de audio era la característica más solicitada de los usuarios de Gemini. Esta demanda destaca la necesidad de procesamiento de audio simplificado dentro del asistente de IA.

Precisión de transcripción e integración de características

Durante las pruebas, Gemini transcribió con precisión varios tipos de audio, incluidos bocetos de comedia y conversaciones telefónicas, con solo errores menores en el reconocimiento de nombres. El sistema también identificó de manera efectiva elementos clave y generó listas de tareas pendientes desde el contenido de audio. La adición de procesamiento de audio se alinea con las recientes integraciones de Gemini, como implementaciones en varias aplicaciones, pruebas de una interfaz visual basada en tarjetas y opciones de personalización ampliada. Estas actualizaciones mejoran colectivamente la funcionalidad y la experiencia del usuario de Gemini.

Comparación con otros asistentes de IA

Si bien las capacidades de audio de Gemini no son únicas, son comparables a características de competidores como ChatGPT, que utiliza su modelo de transcripción Whisper. Claude de Anthrope también admite el procesamiento de audio en ciertas herramientas de desarrollador, y la perplejidad puede extraer datos de los videos de YouTube. Gemini tiene como objetivo centrarse en los casos de uso cotidiano para una base de usuarios amplia.

Procesamiento de datos de audio avanzado

Más allá de la simple transcripción, Gemini permite a los usuarios solicitar la simplificación del lenguaje, extraer comentarios específicos de los altavoces, generar preguntas del contenido de audio o crear guías de estudio a partir de discusiones grabadas. Estas opciones proporcionan herramientas para manipular y reutilizar eficientemente la información de audio.

Limitaciones de la función de audio

El límite actual de 10 minutos en las cargas de archivos de audio restringe su aplicabilidad para grabaciones más largas. Los usuarios de nivel libre también enfrentan límites de uso diarios en el procesamiento de audio. Estas limitaciones pueden afectar a los usuarios con extensas necesidades de procesamiento de audio. Google no ha publicado precios específicos para el procesamiento de audio de alto volumen. Sin embargo, el procesamiento de audio está integrado en la cuota de Géminis regular. Esto sugiere que los usuarios deben administrar su uso para evitar exceder los recursos asignados.


Crédito de imagen destacado

Tags: Google Géminis

Related Posts

La madre de uno de los hijos de Elon Musk demanda a xAI por deepfakes sexuales de Grok

La madre de uno de los hijos de Elon Musk demanda a xAI por deepfakes sexuales de Grok

16 enero 2026
OpenAI lanza ChatGPT Translate independiente

OpenAI lanza ChatGPT Translate independiente

15 enero 2026
El momento del lanzamiento de DeepSeek V4 y R2 permanece oculto

El momento del lanzamiento de DeepSeek V4 y R2 permanece oculto

15 enero 2026
Gemini gana Inteligencia Personal para sintetizar datos de Gmail y Fotos

Gemini gana Inteligencia Personal para sintetizar datos de Gmail y Fotos

15 enero 2026
Amazon actualiza a la fuerza a los miembros Prime a Alexa+

Amazon actualiza a la fuerza a los miembros Prime a Alexa+

14 enero 2026
Google actualiza Veo 3.1 con generación de vídeo vertical nativa

Google actualiza Veo 3.1 con generación de vídeo vertical nativa

14 enero 2026

Recent Posts

  • Compensación de $ 20 de Verizon: cómo reclamar su crédito por interrupción hoy
  • Trump formaliza un acuerdo de exportación de chips de IA con un impuesto del 25% sobre las ventas a China
  • Anthropic nombra a la veterana de Microsoft Irina Ghose para liderar la expansión en India
  • Bluesky lanza la insignia Live Now y las etiquetas de efectivo en una actualización importante
  • Netflix consigue un acuerdo global de 7.000 millones de dólares para la lista de películas de Sony Pictures

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.