Estás en otra reunión interminable de Zoom o Teams. Voces monótonas, diapositivas que apenas captan tu atención y tus ojos vidriosos cuando alguien recita estadísticas trimestrales. Ahora, imagine si, en lugar de aburrirlo con hojas de cálculo, la IA en la reunión comenzara a generar imágenes en el acto: imágenes reales que dan vida a la conversación, generadas en tiempo real a medida que las personas hablan. Suena futurista, pero eso es exactamente lo que Microsoft está tramando con una nueva patente.
Microsoft patenta voz a imagen
La última idea de Microsoft (y sí, todavía es sólo una idea por ahora) es tomar transmisiones de audio en vivo (conferencias, reuniones, cualquier conversación verbal) y transformarlas en imágenes, sobre la marcha. La Oficina de Patentes y Marcas de EE.UU. acaba de dejó caer los detalles el 10 de octubre de 2024después de que Microsoft lo presentara en abril. Básicamente, el sistema escucharía sus llamadas, generaría una transcripción de texto, la alimentaría a través de un modelo de inteligencia artificial y mostraría imágenes que coincidieran con lo que se dice.
No más «déjame abrir una diapositiva para eso».

¿El fin de las reuniones aburridas? Quizás no, pero estará cerca.
La mayoría de las reuniones virtuales son bastante aburridas. Y no pretendamos que no pasamos una buena parte del tiempo distrayéndonos.
Pero, ¿qué pasa si esas reuniones de repente comienzan a arrojar imágenes tan rápido como avanza la conversación? Alguien menciona nuevos conceptos de productos y, en cuestión de segundos, las imágenes generadas por IA comienzan a aparecer en la pantalla. Los números secos que la gente cita de repente se convierten en gráficos dinámicos sin que nadie haga clic en un botón. ¿Qué es eso? ¿Un cuello de botella en la cadena de suministro en el sudeste asiático? ¡Bam! Aparece un mapa interactivo que resalta las áreas de preocupación.
Ahora, antes de que te emociones demasiado, seamos claros: esto todavía está en la fase de patente. Y si ha existido el tiempo suficiente, sabrá que muchas patentes no llegan a ninguna parte. Presentar una patente es como plantar una semilla: puede convertirse en algo grandioso o puede quedar como una idea que nunca se desarrolla.
Dicho esto, si Microsoft lo intenta, el hogar obvio para esta tecnología es Equipos de Microsoft. Han estado reforzando Teams con todo tipo de herramientas impulsadas por IA, desde Copilot hasta funciones mejoradas de videoconferencia, por lo que este sería un paso a dar.
Ya hemos visto herramientas de conversión de texto a imagen como DALL-E y A mitad del viaje hacer volar la cabeza a la gente. Ahora podríamos ver ese concepto aplicado al habla en vivo. Es como darle voz a la creatividad de la IA en tiempo real.
Pero por ahora esperamos.
Crédito de la imagen destacada: Kerem Gülen/A mitad del viaje