ElevenLabs, una startup de IA reconocida por sus capacidades de audio de generación lanzado Un modelo de voz a texto independiente llamado Scribe. El lanzamiento sigue una sustancial ronda de financiación de $ 180 millones, elevando la valoración de la compañía a $ 3.3 mil millones.
ElevenLabs lanza Scrib: Un nuevo modelo de voz a texto de IA
Scribe admite más de 99 idiomas y logra una tasa de error de palabras de menos del 5% en más de 25 idiomas, incluido el inglés, que tiene una tasa de precisión reclamada del 97%. Otros idiomas en la excelente categoría de precisión incluyen francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita. Los idiomas adicionales se clasifican con tasas de error variables de altas (5% a 10%) a moderadas (25% a 50%).
Video: Elevenlabs
Según los informes, el nuevo modelo supera a Gemini 2.0 Flash de Google y Whisper V3 Whisper V3 en múltiples idiomas basados en flores y pruebas de referencia de voz comunes. Scribe es el primer modelo de detección de voz separado de ElevenLabs, que previamente había integrado componentes de voz a texto en su plataforma de agente de conversación de IA.
Los suscriptores de chatgpt plus ahora disfrutan de una función de investigación profunda
El CEO Mati Staniszewski destacó el objetivo de mejorar la comprensión de las conversaciones: «Estamos trabajando en formas de alejarnos de solo generar contenido y comprensión y transcribir el discurso», dijo. El modelo presenta diarización de altavoces, marcas de tiempo a nivel de palabras para subtítulos precisos y autogaging de eventos de audio no verbales.
Scribe se limita actualmente a formatos de audio pregrabados, con una versión en tiempo real que se lanzará pronto. El precio para el escriba es de $ 0.40 por hora de audio transcrito, con un descuento introductorio del 50% disponible durante las primeras seis semanas.

Las pruebas de referencia indican registros de escribas las tasas de error de palabras más bajas para varios idiomas, logrando un 98.7% en italiano y 96.7% en inglés. Las características clave incluyen la capacidad de diferenciar los altavoces en grabaciones de múltiples altavoces, marcas de tiempo detalladas y la detección de eventos sin voz.
Para los usuarios empresariales, Scribe sirve como una herramienta de transcripción escalable, beneficiosa para los sectores que dependen de la documentación, las transcripciones y las iniciativas de accesibilidad. La próxima versión en tiempo real podría mejorar aún más su utilidad en escenarios de comunicación en vivo.
El lanzamiento de Scribe coincidió con el lanzamiento de Octave de Hume Ai, un modelo personalizable de texto a voz que funciona con LLM adaptado para la creación de contenido. Elevenlabs afirma que Scribe ha superado constantemente a los competidores en la precisión de la transcripción.
Se puede acceder directamente a Scribe a través del sitio web o API de ElevenLabs, lo que permite a los usuarios cargar archivos de audio o video para transcripciones formateadas. Su salida estructurada ayuda a la integración en diversas aplicaciones, presentando una opción competitiva para las empresas que buscan servicios de transcripción de alta precisión.
Crédito de la imagen destacada: Elevenlabs