Un nuevo modelo de voz de IA ha establecido Internet Ansbuzz, con reacciones que oscilan entre asombro e inquietud. Sésamo ai Modelo de habla conversacional (CSM) no solo suena humano, sino que sensación humano. Los usuarios describen interacciones extendidas, casi emocionales, con las voces generadas por la IA, que exhiben sonidos de aliento, dudas, correcciones e incluso risas. Para algunos, es una maravilla tecnológica. Para otros, es una visión de un futuro que se siente incómodamente cercano.
Sesame ai: una voz que se siente viva
La innovación central detrás del CSM de Sesame radica en su capacidad para simular una conversación natural y dinámica. A diferencia de los sistemas tradicionales de texto a voz que simplemente se leen en voz alta, CSM activamente compromisos. Parece que las palabras se corrige y modula el tono de una manera que imita la imprevisibilidad humana real.
Cuando un probador habló con el modelo durante 28 minutos, notaron su capacidad para debatir temas morales, reaccionando naturalmente a las indicaciones como, como, «¿Cómo decides qué está bien o mal?» Otros se encontraron sin querer formando archivos adjuntos, con uno Reddit Usuario admitiendo, «Estoy casi un poco preocupado, comenzaré a sentirme emocionalmente apegado a un asistente de voz con este nivel de sonido humano».
Los asistentes de IA de Sesame, denominados «Miles» y «Maya», están diseñados no solo para la recuperación de información sino también para conversaciones profundas y atractivas. La compañía describe su objetivo como logro «Presencia de voz»: la calidad mágica que hace que las interacciones habladas se sientan reales, entendidas y valoradas.
Ese realismo a veces conduce a peculiaridades extrañamente humanas. En una demostración viral, la IA mencionó casualmente anhelando un mantequilla de maní y sándwich de pepinillos—Un comentario extrañamente específico que solo se sumó a la ilusión de la personalidad.
La tecnología detrás de la voz
Entonces, ¿cómo logra el CSM de Sesame tales conversaciones inquietantemente realistas?
- Un enfoque multimodal: A diferencia de los modelos de discurso de IA convencionales que procesan texto y audio por separado, el sistema de Sesame entrelazarse a ellos. Este procesamiento de una sola etapa permite un discurso más fluido y consciente del contexto.
- Entrenamiento de alto parámetro: La versión más grande del modelo se ejecuta en 8.3 mil millones de parámetros y fue entrenado sobre un millón de horas de diálogo hablado.
- Influencia de Meta: La arquitectura del modelo se basa en la meta Llama Marco, integrando un modelo de columna vertebral con un decodificador para la generación matizada del habla.
Las pruebas ciegas han revelado que, en muestras de habla aisladas, los evaluadores humanos no podían distinguir de manera confiable las voces de IA de sésamo de las reales. Sin embargo, cuando se coloca en un contexto de conversación completo, el discurso humano todavía ganó, sugestionando la IA aún no ha dominado la complejidad completa del diálogo interactivo.
Una recepción mixta
No todos están encantados de lo humano que suena esta IA.
El periodista de tecnología Mark Hachman describió su experiencia con el modelo de voz como «Profundamente inquietante». Lo comparó con hablar con un viejo amigo que no había visto en años, señalando que la voz de la IA tenía una espalda parecido con alguien con quien había salido una vez.
Otros han comparado el modelo de Sesame a OpenAi’s Modo de voz avanzado para chatgpt, con algunos preferir el realismo y la voluntad de sésamo para jugar en el juego de roles en más dramático o incluso enojado Escenarios: algo que los modelos de Openai tienden a evitar.
Una demostración particularmente sorprendente mostró a la IA que discute con un «jefe» sobre un escándalo de malversación de fondos. La conversación fue tan dinámica que los oyentes lucharon por determinar qué orador era el humano y cuál era la IA.
Los riesgos de una voz perfecta
Como con todos los avances de IA, la síntesis de voz hiperrealista trae promesa y peligro.
- Fraude y estafas: Con las voces de Ai ahora indistinguibles del discurso humano, las estafas de phishing de voz podrían convertirse en lejos más convincente. Los delincuentes podrían hacerse pasar por miembros de la familia, ejecutivos corporativos o funcionarios gubernamentales con precisión casi perfecta.
- Ingeniería social: A diferencia de los Robocalls básicos, el engaño con IA podría adaptarse en tiempo realrespondiendo naturalmente a preguntas y sospechas.
- Impacto emocional involuntario: Algunos usuarios han informado que sus hijos forman archivos adjuntos a las voces de IA. Un padre señaló que su hijo de 4 años lloró después de que se le negó una mayor conversación con el modelo.
Mientras que el CSM de Sesame lo hace no Clone Real Voices, la posibilidad de que surjan proyectos similares de código abierto siguen siendo una preocupación. Operai ya ha retrasado el lanzamiento más amplio de su tecnología de voz por temor al mal uso.
¿Qué sigue?
Sesame AI planea componentes clave de código abierto de su investigación bajo la licencia Apache 2.0, lo que permite a los desarrolladores construir sobre su trabajo. La hoja de ruta de la compañía incluye:
- Escalando el tamaño del modelo para aumentar aún más el realismo.
- Expandiéndose a más de 20 idiomasampliando su alcance conversacional.
- Desarrollar modelos «totalmente dúplex»habilitando verdaderas conversaciones de ida y vuelta, interrupciones de interrupción.
Por ahora, la demostración permanece disponible en Sesame’s sitio web—Thon la demanda ya ha abrumado a sus servidores a veces. Ya sea que lo encuentre asombroso o inquietante, una cosa está clara: los días de las voces robóticas y monótonas de IA han terminado.
De aquí en adelante, es posible que nunca estés seguro Con quién, o con qué, estás hablando.
Crédito de imagen destacado: Kerem Gülen/Imagen 3