VALL-E, la locuaz inteligencia artificial de Microsoft capaz de imitar tu voz en apenas tres segundos

Micro­soft está invir­tien­do a manos lle­nas en tec­no­lo­gía de inte­li­gen­cia arti­fi­cial. Más allá de inver­tir 10.000 millo­nes de dóla­res en Ope­nAI para inte­grar el chat­bot ChatGTP en sus pro­duc­tos, aca­ba de pre­sen­tar en socie­dad un nue­vo mode­lo de len­gua­je: VALL‑E.

Enfo­ca­do a la sín­te­sis de voz a tex­to (TTS, «text to speech» en inglés), VALL‑E se ufa­na de imi­tar cual­quier voz huma­na casi a la per­fec­ción escu­chan­do duran­te ape­nas tres segun­dos la voz que tra­ta de reme­dar.

«Espe­cí­fi­ca­men­te entre­na­mos un mode­lo de len­gua­je de códec neu­ro­nal uti­li­zan­do códi­gos dis­cre­tos deri­va­dos de un mode­lo de códec de audio neu­ro­nal lis­to para usar, y con­si­de­ra­mos TTS como una tarea de mode­la­do de len­gua­je con­di­cio­nal en lugar de una regre­sión de señal con­ti­nua como en el tra­ba­jo ante­rior», afir­ma Micro­soft.

  • VALL‑E podrá fun­cio­nar con otros mode­los de IA gene­ra­ti­va

VALL‑E aglu­ti­na apli­ca­cio­nes de sín­te­sis de voz que pue­den amal­ga­mar­se con otros mode­los ya cono­ci­dos en el mer­ca­do, como GPT‑3. Ello inclu­ye la crea­ción de con­te­ni­do, la edi­ción de voz y las apli­ca­cio­nes de sín­te­sis de voz zero-shot.

En su web, Micro­soft expli­ca cómo fun­cio­na VALL‑E apo­yán­do­se en un sofis­ti­ca­do mode­la­do de len­gua­je de códec neu­ral, y mues­tra algu­nos ejem­plos que dan cuen­ta de cómo fun­cio­na exac­ta­men­te este pro­duc­to. En tales ejem­plos se espe­ci­fi­ca cuál es la entra­da de audio uti­li­za­da como base, los pasos inter­me­dios y el resul­ta­do final. El mode­lo de Micro­soft reme­da a la per­fec­ción no solo la voz de mues­tra, sino la caden­cia, el tono e inclu­so el entorno acús­ti­co en que esta ha sido gra­ba­da.

VALL‑E es capaz, por otra par­te, de sin­te­ti­zar mues­tras de voz per­so­na­li­za­das con las deno­mi­na­das «seeds» pro­pias del mode­lo, lo cual hace posi­ble «trans­for­mar» nues­tras voces en otras.

Duran­te la fase de entre­na­mien­to de VALL‑E, Micro­soft empleó alre­de­dor de 60.000 horas de habla en inglés, una cifra que está sus­tan­cial­men­te por enci­ma de los núme­ros bara­ja­dos por otros sis­te­mas TTS, de acuer­do con la empre­sa de Red­mond.

Micro­soft, que pla­nea inte­grar ChatGPT en Bing y en su paque­te Offi­ce, pare­ce deci­di­do a sacar el máxi­mo jugo a la inte­li­gen­cia arti­fi­cial, que en un futu­ro no dema­sia­do lejano podría estar pre­sen­te en prác­ti­ca­men­te todos sus pro­duc­tos.