OpenAI, la empresa que desarrolló ChatGPT, anunció que competirá en el servicio de los asistentes virtuales con una tecnología capaz de hacer clonación de voz.
La compañía solicitó el registro de marca a nivel internacional de Voice Engine el pasado 19 de marzo.
El motor de voz, como se traduciría la marca en español, será capaz de producir voces sintéticas idénticas a las proporcionadas mediante la inteligencia artificial (AI, por sus siglas en ingles).
“Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala de un modelo llamado Voice Engine, que utiliza entrada de texto y una única muestra de audio de 15 segundos para generar un habla con sonido natural que se parece mucho al hablante original”, anunció la compañía el pasado 29 de marzo en un comunicado.
¿Cómo funciona la tecnología de clonación de voz?
La inteligencia artificial desarrollada por OpenAI es capaz de generar una voz idéntica a la humana con tan sólo proporcionarle 15 segundos de audio original.
El sistema podrá reproducir esta voz y usarla como ejemplo para traducir textos a voz.
Y con la misma voz se podrán reproducir audios en cualquier idioma, abriendo un abanico de negocios para las traducciones, los audiolibros, el doblaje de películas o canciones que se podrán poner con la voz que uno quiera.
Lo notable del sistema de Voice Engine es que su motor pueda desarrollar voces muy naturales con las tonalidades y emociones similares a una voz humana con tan solo tener 15 segundos de muestra.
Por seguridad, retrasan su lanzamiento
La empresa de tecnología asegura que desde finales de 2022 desarrollaron este motor de voz y lo han utilizado para potenciar las voces preestablecidas disponibles en su API de conversión de textos a voz, así como en el ChatGPT Voice y Read Aloud.
OpenAI aseguró en su comunicado que trabajó con un reducido grupo de colaboradores y empresas externas que probaron la tecnología y desarrollaron contenido para explorar los alcances.
Pese a que la tecnología ya fue utilizada por un reducido grupo de colaboradores, no lanzarán de forma masiva el servicio ya que saben del peligro de que haya un uso indebido.
“Estamos adoptando un enfoque cauteloso e informado para una publicación más amplia debido al potencial de uso indebido de la voz sintética”, aseguró la empresa en el comunicado colocado en su página web.
“Reconocemos que generar habla que se parezca a las voces de las personas conlleva serios riesgos, los cuales debemos tomar en cuenta, especialmente en año electoral”, precisó OpenAI.
Primeras aplicaciones de la clonación de voz con Voice Engine
La empresa compartió resultados de algunas aplicaciones que un selecto grupo de colaboradores ha creado con esta herramienta desde finales de 2022 y que podrían ser un ejemplo de cómo aplicar este motor de voz de forma responsable:
Desarrollo de tecnología educativa
Una de las primeras aplicaciones ha sido para brindar asistencia de lectura para niños y no lectores mediante “voces más emotivas y que suenan naturales a diferencia de voces preestablecidas”.
La empresa de tecnología Age of Learning, dedicada al éxito académico de niños, creo voz en off preguionada para generar contenidos y llegar a más audiencia y lo combino con el uso de ChatGPT4 para dar respuestas e interactuar con alumnos.
Traducción de contenidos
La tecnología de Voice Engine permitirá a empresas y creadores de contenido traducir video y podcast a diferentes idiomas con la voz original y llegar a más personas en todo el mundo.
Al ser utilizada para traducir, la tecnología del motor de voz de OpenAI conservará el acento nativo del hablante original, es decir, si un hablante de lengua francesa es traducido al inglés permanecerá su acento francés en la traducción haciendo más natural la voz.
La empresa HeyGen, una plataforma de narraciones visuales creadas por AI con aplicaciones empresariales, fue la primera en aplicar Voice Engine en traducciones.
Mediante la creación de avatares personalizados con apariencia humana, esta compañía realiza aplicaciones para marketing o demostraciones de productos y utiliza el motor de voz para traducir los contenidos a diferentes idiomas.
Ayuda a comunidades y prestación de servicios
Otro aplicativo de este motor de generación de voz tiene como finalidad ayudar a comunidades remotas cuya barrera sea el idioma, además de tener una localización remota.
Por ejemplo, la empresa Dimagi creo mecanismos para que médicos y trabajadores de la salud puedan comunicarse mediante Voice Engine y el ChatGPT4 en comunidades remotas como Kenia y lugares de ‘África en donde se habla suajili.
Ayuda a personas con discapacidad
Voice Engine fue utilizada para ayudar a personas que no son verbales, como aplicaciones terapéuticas para personas que tienen afecciones al habla.
Livox, es una app de comunicación alternativa con inteligencia artificial para personas con discapacidad
Ayuda a pacientes para recuperar la voz
Ya sea pacientes que sufren condiciones del habla repentinas o degenerativas. Los médicos del Instituto de Neurociencias Norman Prince de Lifespan han utilizado el sistema de Voice Engine para devolverle la voz a pacientes que por afecciones como un tumor cerebral han perdido la capacidad del habla.
El caso especifico fue el de una joven que perdió el habla por un tumor cerebral pero gracias al uso de la AI generaron de nuevo su voz tras haber utilizado como muestra un video de una tarea escolar.
Peligros ante la clonación de voces
Uno de los probables mal usos de esta nueva tecnología de la inteligencia artificial podría darse en el uso de voces clonadas para extorsiones telefónicas.
En su comunicado, la empresa OpenAI ha dicho que esperan poder iniciar un dialogo sobre el uso responsable de voces sintéticas y abrir un debate sobre cómo la sociedad puede hacer uso de voces sintéticas de forma responsable.
Clonación de voz en elecciones de EU
La empresa con sede en San Francisco aseguró en su comunicado que uno de los motivos para retrasar el lanzamiento del servicio de clonación de voz son las próximas elecciones en Estados Unidos, en donde esto podría ser usado de forma ilegal.
Sin embargo, en Estados Unidos ya circulan grabaciones apócrifas de políticos invitando al voto. Se trata de servicios de clonación de voz de empresas incipientes que lo ofrecen de forma selecta a clientes específicos.
En el estado de New Hampshire se documentaron llamadas telefónicas hechas a los votantes por una voz igual a la del presidente Joe Biden, se trata de una voz hecha con inteligencia artificial usada para incentivar el voto en las elecciones primarias a la presidencia.
No sólo es clonación de voz
La empresa OpenAI además de ser la creadora del ChatGPT desarrolló el generador de imágenes DALL-E y el generador de videos Sora.