Para muchas aplicaciones, como la realidad digital y aumentada, la creación de juegos y la edición de movies, es essential producir efectos de sonido, música o voz según criterios específicos. Tradicionalmente, las técnicas de procesamiento de señales se han utilizado para generar audio. En los últimos años se ha producido una revolución en este oficio gracias a los modelos generativos, ya sea de forma incondicional o dependiente de otras modalidades. Se utilizó una colección modesta de etiquetas, como las diez clases de sonido en el conjunto de datos UrbanSound8K, en experimentos anteriores que se centraron principalmente en la configuración de etiqueta a sonido. El lenguaje pure, por el contrario, es mucho más versátil que las etiquetas, ya que puede contener descripciones detalladas de señales auditivas (p. ej., tono, entorno acústico y orden temporal).
La generación de texto a audio (TTA) es el proceso de producir audio sugerido por descripciones en lenguaje pure. Los sistemas TTA pueden proporcionar una variedad de flujos de audio de alta dimensión. Construyen el modelo generativo en un espacio latente compacto de aprendizaje para modelar los datos de manera eficiente. DiffSound utiliza conceptos similares, un programa que utiliza modelos de difusión para aprender una representación discreta comprimida a partir del espectrograma mel de un archivo de audio. En un espacio discreto de formas de onda, el modelo autorregresivo de AudioGen ha suplantado a DiffSound. Investigan modelos de difusión latente (LDM) para la generación de TTA en una representación latente continua en lugar de aprender representaciones discretas porque StableDiffusion emplea LDM para proporcionar imágenes de alta calidad como inspiración.
Además, estudian y logran diferentes alteraciones de audio guiadas por texto de tiro cero con LDM, que nunca antes se habían probado porque las manipulaciones de audio como la transferencia de estilo también son necesarias para las señales de audio. La necesidad de pares de datos de audio y texto de alta calidad y a gran escala, que normalmente no están fácilmente disponibles y son de calidad y cantidad restringida, podría ser una barrera significativa para la calidad de generación para estudios anteriores de TTA. Se han sugerido varias técnicas de preparación de texto para utilizar mejor los datos con subtítulos de texto ruidosos. Sin embargo, al eliminar las relaciones entre los eventos sonoros en sus procesos de preprocesamiento, inevitablemente restringen el rendimiento de su creación (por ejemplo, un perro que ladra al ladrido se transforma en un parque para perros). Este estudio aborda este problema mediante el desarrollo de una técnica que supera los datos emparejados de audio y texto y requiere datos de audio para el entrenamiento del modelo generativo.
Este documento presenta un sistema TTA llamado AudioLDM que se beneficia de la eficiencia computacional y las manipulaciones de audio condicionales por texto al mismo tiempo que logra una calidad de generación de vanguardia con LDM continuos. En specific, AudioLDM aprende a producir el audio antes en un espacio latente codificado por un codificador automático variacional basado en espectrogramas Mel (VAE). Se crea un LDM condicionado por la incrustación latente de preentrenamiento de audio-lenguaje contrastivo (CLAP) para una generación anterior. Reducen la necesidad de datos de texto durante el entrenamiento de LDM al utilizar este espacio de incrustación alineado con audio y texto, ya que la demanda de la generación anterior puede provenir directamente del audio.
Muestran que entrenar LDM solo con audio a veces es más efectivo que entrenar con pares de datos de audio y texto. En el conjunto de datos de AudioCaps, el AudioLDM propuesto supera a la línea de base de DiffSound por un margen significativo con una distancia de actualización (FD) de 23,31, logrando un rendimiento TTA de última generación. Su método permite cambios de audio de disparo cero a lo largo del proceso de muestreo en el ínterin. Sus contribuciones, en resumen, son las siguientes:
• Muestran el primer intento de crear un LDM continuo para la generación de TTA y funcionan mejor que las técnicas actuales tanto en criterios subjetivos como objetivos.
Sin emplear emparejamientos de idioma y audio para entrenar LDM, generan TTA utilizando latentes CLAP.
• Demuestran experimentalmente que se puede crear un sistema TTA de alta calidad y computacionalmente eficiente utilizando datos de audio durante el entrenamiento LDM.
• Demuestran que, sin ajustar el modelo para un trabajo en specific, su sistema TTA propuesto puede ejecutar modificaciones de estilo de audio guiadas por texto, como transferencia de estilo de audio, superresolución y pintura interna. Se puede acceder al código en GitHub.
Revisar la Github, Proyecto, y Papel. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro 13k+ ML SubReddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencias de la Información e Inteligencia Synthetic en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le encanta conectar con la gente y colaborar en proyectos interesantes.