Sección

Tecnología

Conoce Voice Engine, la nueva IA capaz de clonar la voz humana

Se trata de un software de OpenAI que permite generar voz a partir de una muestra de audio.

Luz Noticias
01/04/24

Conoce Voice Engine, la nueva IA capaz de clonar la voz humana

FOTO: Freepik.

Tras éxitos como ChatGPT y Sora, la compañía OpenAI ahora anuncia el lanzamiento de Voice Engine, un software revolucionario capaz de recrear la voz humana utilizando IA.

Luego de dos años de desarrollo Voice Engine representa una expansión de la API existente de conversión de texto a voz de OpenAI; su funcionamiento es simple: permitir a los usuarios cargar una muestra de voz de 15 segundos para generar una réplica sintética de esa voz.

Aunque Voice Engine aún se encuentra en fase de pruebas y no está disponible para el público en general, su potencial es impresionante. OpenAI afirma que el software puede generar voces emotivas y realistas que se asemejan mucho al hablante original, a pesar de la muestra de voz limitada; esta capacidad tiene aplicaciones significativas en diversas áreas.

Entre los usos propuestos por OpenAI se encuentran la asistencia de lectura para personas con dificultades de lectura o para aquellos que no saben leer en absoluto.

Imagen Placeholder

También puede ser una herramienta poderosa para traducir contenido y mejorar la prestación de servicios esenciales en entornos remotos o para comunidades globales. Además, puede brindar apoyo a personas que no usan la comunicación verbal, ayudar a pacientes a recuperar su voz y muchas otras aplicaciones potenciales.

Otro de sus potenciales usos sería en el caso de condiciones degenerativas del habla, en donde Voice Engine podría ayudar a los pacientes a recuperar su voz. 

Imagen Placeholder

Pruebas de uso

La presentación de Voice Engine en el blog de OpenAI incluye ejemplos con audio de referencia y audio generado, demostrando la capacidad del software para cambiar de tema, de idioma e incluso de objetivo, como pasar de un discurso a una pregunta.

Aunque existen algunas diferencias perceptibles entre el audio original y el generado, son lo suficientemente similares como para pasar por auténticas, especialmente si el discurso coincide con lo esperado del hablante en cuestión.

Te puede interesar:

×