¡Microsoft acaba de presentar una nueva herramienta AI que podría cambiar la forma en la que creamos contenido! La herramienta, llamada VALL-E, permite crear contenido de audio a partir de una muestra de audio de sólo tres segundos. Esta herramienta de inteligencia artificial permitiría crear contenido de audio realista con una pequeña cantidad de entrada. Aunque la tecnología es compleja, nos preguntamos si hay algún riesgo en su uso, y los posibles usos para la misma. ¡Descubramos más sobre esta herramienta AI de Microsoft!
VALL-E, es una herramienta de texto a voz basada en Inteligencia Artificial que puede clonar la voz y el tono de alguien a partir de una muestra de audio de sólo 3 segundos. Esta tecnología puede generar contenido de audio con una pequeña cantidad de entrada y lograr un sonido humano más realista. La herramienta puede tener varias aplicaciones, como la creación de contenido, la edición de discurso y la conversión de texto a voz. Microsoft también ha indicado que está trabajando en la incorporación de un sistema para detectar si el audio fue creado con VALL-E.
La herramienta funciona tomando una muestra de audio de sólo 3 segundos como entrada, y luego usando un modelo de lenguaje llamado «neural codec language model» para generar contenido de audio. Esto le permite clonar el tono y la voz de una persona. La herramienta también se puede combinar con OpenAI’s GPT-3 language modeling system para generar contenido de forma rápida.
Uno de los principales riesgos potenciales de VALL-E es el uso indebido para crear contenido falso o engañoso. Debido a que la herramienta solo requiere una pequeña cantidad de entrada, se podría usar una muestra de audio de cualquier fuente para imitar a alguien. Esto podría conducir a la propagación de contenido falso o engañoso. Por esta razón, Microsoft está optando por no hacer la herramienta de código abierto en este momento. Están trabajando en la incorporación de un sistema para detectar si el audio fue creado con VALL-E.