Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Google Gemini ahora transcribe archivos de audio

byAytun Çelebi
11 septiembre 2025
in Inteligencia Artificial
Home Noticias Inteligencia Artificial
Share on FacebookShare on Twitter
Google Preferred Source

El Asistente de AI Gemini de Google ahora permite cargas de archivos de audio, lo que permite a los usuarios transcribir, resumir y extraer información clave de las grabaciones. Esta nueva característica convierte hasta 10 minutos de memorandos de voz, reuniones, conferencias y entrevistas en documentos de búsqueda directamente dentro del entorno AI. Las cargas de archivos de audio son compatibles en las aplicaciones web y móviles. Los usuarios pueden acceder a la función a través de la interfaz estándar de archivos-sopload. Esto difiere del procesamiento de comandos de voz en tiempo real de Gemini Live, ya que la nueva función procesa el audio pregrabado para la extracción y el análisis de datos. Josh Woodward, vicepresidente de Géminis de Google, declaró que la carga de archivos de audio era la característica más solicitada de los usuarios de Gemini. Esta demanda destaca la necesidad de procesamiento de audio simplificado dentro del asistente de IA.

Precisión de transcripción e integración de características

Durante las pruebas, Gemini transcribió con precisión varios tipos de audio, incluidos bocetos de comedia y conversaciones telefónicas, con solo errores menores en el reconocimiento de nombres. El sistema también identificó de manera efectiva elementos clave y generó listas de tareas pendientes desde el contenido de audio. La adición de procesamiento de audio se alinea con las recientes integraciones de Gemini, como implementaciones en varias aplicaciones, pruebas de una interfaz visual basada en tarjetas y opciones de personalización ampliada. Estas actualizaciones mejoran colectivamente la funcionalidad y la experiencia del usuario de Gemini.

Comparación con otros asistentes de IA

Si bien las capacidades de audio de Gemini no son únicas, son comparables a características de competidores como ChatGPT, que utiliza su modelo de transcripción Whisper. Claude de Anthrope también admite el procesamiento de audio en ciertas herramientas de desarrollador, y la perplejidad puede extraer datos de los videos de YouTube. Gemini tiene como objetivo centrarse en los casos de uso cotidiano para una base de usuarios amplia.

Procesamiento de datos de audio avanzado

Más allá de la simple transcripción, Gemini permite a los usuarios solicitar la simplificación del lenguaje, extraer comentarios específicos de los altavoces, generar preguntas del contenido de audio o crear guías de estudio a partir de discusiones grabadas. Estas opciones proporcionan herramientas para manipular y reutilizar eficientemente la información de audio.

Limitaciones de la función de audio

El límite actual de 10 minutos en las cargas de archivos de audio restringe su aplicabilidad para grabaciones más largas. Los usuarios de nivel libre también enfrentan límites de uso diarios en el procesamiento de audio. Estas limitaciones pueden afectar a los usuarios con extensas necesidades de procesamiento de audio. Google no ha publicado precios específicos para el procesamiento de audio de alto volumen. Sin embargo, el procesamiento de audio está integrado en la cuota de Géminis regular. Esto sugiere que los usuarios deben administrar su uso para evitar exceder los recursos asignados.


Crédito de imagen destacado

Tags: Google Géminis

Related Posts

Anthropic invita a 150 organizaciones más al Proyecto Glasswing

Anthropic invita a 150 organizaciones más al Proyecto Glasswing

3 junio 2026
Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

3 junio 2026
Google permitirá que los sitios web opten por no aparecer en los resultados de búsqueda con IA

Google permitirá que los sitios web opten por no aparecer en los resultados de búsqueda con IA

3 junio 2026
OpenAI amplía Codex con complementos empresariales y una nueva función de Sitios

OpenAI amplía Codex con complementos empresariales y una nueva función de Sitios

3 junio 2026
Meta parches falla de IA que permitió la apropiación de cuentas de Instagram

Meta parches falla de IA que permitió la apropiación de cuentas de Instagram

2 junio 2026
Un paquete popular del Codex fue descubierto extrayendo credenciales de autenticación

Un paquete popular del Codex fue descubierto extrayendo credenciales de autenticación

2 junio 2026

Recent Posts

  • Las reglas de exclusión voluntaria de la búsqueda de IA de Google provocan el lanzamiento del navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos
  • Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA
  • Según los informes, los nuevos chips Core Ultra de Intel son escasos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.