DALL-E, ChatGPT, VALL-E
"Un robot robando la voz de un humano, al estilo de Picasso". Generado por DALL-E |
Los investigadores de Microsoft han presentado un nuevo e impresionante modelo de IA de texto a voz, llamado Vall-E, que puede escuchar una voz durante unos segundos y luego imitar esa voz, incluido el tono emocional y la acústica, para decir lo que quieras.
11 enero 2023.- Es el último de muchos algoritmos de IA que pueden aprovechar una grabación de la voz de una persona y hacer que diga palabras y oraciones que esa persona nunca dijo, y es notable por el pequeño trozo de audio que necesita para extrapolar una voz humana completa. Donde el algoritmo Lyrebird de 2017 de la Universidad de Montreal , por ejemplo, necesitó un minuto completo de voz para analizar, Vall-E solo necesita un fragmento de audio de tres segundos.
La IA ha sido entrenada en unas 60.000 horas de habla en inglés, principalmente, al parecer, por narradores de audiolibros, y los investigadores han presentado una serie de muestras, en las que Vall-E intenta manipular una variedad de voces humanas. Algunos hacen un trabajo bastante extraordinario al capturar la esencia de la voz y construir nuevas oraciones que suenen naturales: te costará saber cuál es la voz real y cuál la síntesis. En otros, el único regalo es cuando la IA pone el énfasis en lugares extraños de la oración.
Vall-E hace un trabajo particularmente bueno al recrear el entorno de audio de la muestra original. Si la muestra suena como si hubiera sido grabada por teléfono, también lo hará la síntesis. También es bastante bueno con acentos, al menos, americano, británico y algunos acentos que suenan europeos.
En términos de emoción, los resultados son menos impresionantes. El uso de muestras de voz marcadas como enojado, somnoliento, divertido o asqueado parece desviar las cosas, y la síntesis suena extrañamente distorsionada.
Las implicaciones de este tipo de tecnología son bastante claras; en el lado positivo, en algún momento podrá hacer que Morgan Freeman narre su lista de compras mientras viaja en un carrito por el pasillo del supermercado. Si un actor muere a la mitad de una película, puede terminar su actuación a través de videos y audio falsos utilizando sistemas como este. Apple ha presentado recientemente un catálogo de audiolibros leídos por una IA, y es lógico que pronto puedas alternar entre narradores sobre la marcha.
En el lado negativo, bueno, no son buenas noticias para los actores de doblaje y los narradores. O de hecho para los oyentes; La IA podría generar narraciones de forma rápida y extremadamente económica, pero no esperes mucho arte.
El potencial para los estafadores también es altísimo. Si un estafador puede llamarte por teléfono durante tres segundos, puede robar tu voz y llamar a tu abuela con ella. O omita cualquier dispositivo de seguridad de reconocimiento de voz. Este es exactamente el tipo de cosas que los robots Terminator necesitarán para hacer llamadas telefónicas.
Y, por supuesto, todos siguen esperando el momento en que el primer discurso falsificado de una figura política engañe a suficientes personas como para socavar la noción misma de creer lo que ven y oyen, como si la verdad objetiva no fuera ya un concepto atacado en esta era extraña.
El equipo de Microsoft Vall-E agrega una breve declaración de ética al final de su página de demostración: "Los experimentos en este trabajo se llevaron a cabo bajo el supuesto de que el usuario del modelo es el orador objetivo y ha sido aprobado por el orador. Sin embargo, cuando el modelo se generaliza a hablantes no vistos, los componentes relevantes deben ir acompañados de modelos de edición del habla, incluido el protocolo para garantizar que el hablante acepte ejecutar la modificación y el sistema para detectar el habla editada".
El surgimiento de IA creativas como DALL-E , ChatGPT, varios algoritmos falsos profundos y muchos otros se siente como si estuviera en un punto de inflexión en los últimos meses, comenzando a salir de los laboratorios hacia el mundo real. Como todo cambio, trae consigo oportunidades y riesgos.
Echa un vistazo a todas las muestras de audio en la página de demostración de Vall-E .
COMENTARIOS