VALL-E, la locuaz inteligencia artificial de Microsoft capaz de imitar tu voz en apenas tres segundos

VALL-E, la locuaz inteligencia artificial de Microsoft capaz de imitar tu voz en apenas tres segundos

Microsoft está invirtiendo a manos llenas en tecnología de inteligencia artificial. Más allá de invertir 10.000 millones de dólares en OpenAI para integrar el chatbot ChatGTP en sus productos, acaba de presentar en sociedad un nuevo modelo de lenguaje: VALL-E.

Enfocado a la síntesis de voz a texto (TTS, «text to speech» en inglés), VALL-E se ufana de imitar cualquier voz humana casi a la perfección escuchando durante apenas tres segundos la voz que trata de remedar.

«Específicamente entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior», afirma Microsoft.

  • VALL-E podrá funcionar con otros modelos de IA generativa

VALL-E aglutina aplicaciones de síntesis de voz que pueden amalgamarse con otros modelos ya conocidos en el mercado, como GPT-3. Ello incluye la creación de contenido, la edición de voz y las aplicaciones de síntesis de voz zero-shot.

En su web, Microsoft explica cómo funciona VALL-E apoyándose en un sofisticado modelado de lenguaje de códec neural, y muestra algunos ejemplos que dan cuenta de cómo funciona exactamente este producto. En tales ejemplos se especifica cuál es la entrada de audio utilizada como base, los pasos intermedios y el resultado final. El modelo de Microsoft remeda a la perfección no solo la voz de muestra, sino la cadencia, el tono e incluso el entorno acústico en que esta ha sido grabada.

VALL-E es capaz, por otra parte, de sintetizar muestras de voz personalizadas con las denominadas «seeds» propias del modelo, lo cual hace posible «transformar» nuestras voces en otras.

Durante la fase de entrenamiento de VALL-E, Microsoft empleó alrededor de 60.000 horas de habla en inglés, una cifra que está sustancialmente por encima de los números barajados por otros sistemas TTS, de acuerdo con la empresa de Redmond.

Microsoft, que planea integrar ChatGPT en Bing y en su paquete Office, parece decidido a sacar el máximo jugo a la inteligencia artificial, que en un futuro no demasiado lejano podría estar presente en prácticamente todos sus productos.