
Publicado por Paul McCartney, ingeniero de software program, Vivek Kwatra, científico investigador, Yu Zhang, científico investigador, Brian Colonna, ingeniero de software program y Mor Miller, ingeniero de software program
Las personas ven cada vez más el video como su forma preferida de estar mejor informados, explorar sus intereses y entretenerse. Y, sin embargo, el idioma hablado de un video es a menudo una barrera para la comprensión. Por ejemplo, un alto porcentaje de los movies de YouTube están en inglés pero menos del 20% de la población mundial habla inglés como su primera o segunda lengua. El doblaje de voz es siendo cada vez más utilizado para transformar movies a otros idiomas, traduciendo y reemplazando el diálogo hablado authentic de un video. Esto es efectivo para eliminar la barrera del idioma y también es una mejor opción de accesibilidad con respecto a la alfabetización y la vista en comparación con los subtítulos.
En la publicación de hoy, compartimos nuestra investigación para aumentar la calidad del doblaje de voz mediante el aprendizaje profundo, brindando una experiencia de visualización más cercana a la de un video producido directamente para el idioma de destino. Específicamente, describimos nuestro trabajo con tecnologías para transferencia de voz entre idiomas y reanimación de labios, que mantiene la voz related a la del orador authentic y ajusta los movimientos de los labios del orador en el video para que coincida mejor con el audio generado en el idioma de destino. Ambas capacidades se desarrollaron con TensorFlow, que proporciona una plataforma escalable para el aprendizaje automático multimodal. Compartimos movies producidos con nuestro prototipo de investigación, que se ha demostrado que distraen menos y, con suerte, son más agradables para los espectadores.
Transferencia de voz multilingüe
El casting de voces es el proceso de encontrar una voz adecuada para representar a cada persona en la pantalla. Mantener la suspensión de la incredulidad de la audiencia al tener voces creíbles para los oradores es importante para producir un doblaje de calidad que apoye el video en lugar de distraerlo. Logramos esto a través de la transferencia de voz entre idiomas, donde creamos voces sintéticas en el idioma de destino que suenan como las voces del hablante authentic. Por ejemplo, el siguiente video usa una voz doblada en inglés que se creó a partir de la voz authentic en español del hablante.
(incrustar)https://www.youtube.com/watch?v=ZMkYL942RBw(/incrustar) |
Videoclip authentic de “Coding TensorFlow” en español. |
(incrustar)https://www.youtube.com/watch?v=GGdTBng7KJw(/incrustar) |
El videoclip “Coding TensorFlow” doblado del español al inglés, usando transferencia de voz entre idiomas y reanimación de labios. |
Inspirándonos en el aprendizaje de pocas tomas, primero entrenamos previamente un modelo TTS multilingüe basado en nuestro enfoque de transferencia de voz entre idiomas. Este enfoque utiliza un modelo de secuencia a secuencia basado en la atención para generar una serie de cuadros de espectrograma log-mel a partir de una secuencia de texto de entrada multilingüe con un codificador residual de estilo de codificador automático variacional. Posteriormente, ajustamos los parámetros del modelo reentrenando el decodificador y los módulos de atención con una proporción de mezcla fija de los datos de adaptación y los datos multilingües originales, como se ilustra en la Figura 1.
![]() |
Figura 1: arquitectura de transferencia de voz |
Tenga en cuenta que la transferencia de voz y la reanimación de labios solo se realizan cuando el propietario del contenido y los hablantes dan su consentimiento para estas técnicas en su contenido.
Reanimación de Labios
Con los movies doblados convencionalmente, escuchas las voces traducidas/dobladas mientras ves a los hablantes originales hablando el diálogo authentic en el idioma de origen. Los movimientos de los labios que ve en el video generalmente no coinciden con las palabras recién dobladas que escucha, lo que hace que la combinación de audio y video no parezca pure. Esto puede distraer a los espectadores de involucrarse completamente con el contenido. De hecho, las personas a menudo incluso intencionalmente apartar la mirada de la boca del hablante mientras ve movies doblados como un medio para evitar ver esta discrepancia.
Para ayudar con la participación de la audiencia, los productores de movies doblados de mayor calidad pueden esforzarse más en adaptar cuidadosamente el diálogo y la interpretación de la voz para que coincida parcialmente con el nuevo discurso con el movimiento de labios existente en el video. Pero esto eat mucho tiempo y es costoso, lo que hace que su costo sea prohibitivo para muchos productores de contenido. Además, requiere cambios que pueden degradar ligeramente el rendimiento de la voz y la precisión de la traducción.
Para proporcionar el mismo beneficio de sincronización de labios, pero sin estos problemas, desarrollamos una arquitectura de reanimación de labios para corregir el video para que coincida con la voz doblada. Es decir, ajustamos los movimientos de los labios del hablante en el video para que los labios se muevan alineados con el nuevo diálogo doblado. Esto hace que parezca que el video fue filmado con personas hablando originalmente en el diálogo traducido/doblado. Este enfoque se puede aplicar cuando lo permitan el propietario del contenido y los oradores.
Por ejemplo, el siguiente clip muestra un video que fue doblado de manera convencional (sin reanimación de labios):
(incrustar)https://www.youtube.com/watch?v=OuIWLEe-9xI(/incrustar) |
Videoclip “Machine Studying Foundations” doblado del inglés al español, con transferencia de voz, pero sin reanimación de labios |
Observe cómo los movimientos de la boca del orador no parecen moverse naturalmente con la voz. El siguiente video muestra el mismo video con reanimación de labios, lo que da como resultado un movimiento de labios que parece más pure con el diálogo traducido/doblado:
(incrustar)https://www.youtube.com/watch?v=axVgDju48XM(/incrustar) |
El videoclip denominado “Fundamentos de aprendizaje automático”, con transferencia de voz y reanimación de labios. |
Para la reanimación de labios, entrenamos un modelo personalizado de varias etapas que aprende a asignar audio a las formas de los labios y la apariencia facial del hablante, como se muestra en la Figura 2. Usando movies originales del hablante para el entrenamiento, aislamos y representamos las caras en un espacio normalizado que desvincula la geometría 3D, la postura de la cabeza, la textura y la iluminación, como se describe en este papel. Adoptar este enfoque permite que nuestra primera etapa se centre en sintetizar la geometría 3D sincronizada con los labios y la textura suitable con el audio doblado, sin preocuparse por la pose y la iluminación. Nuestra segunda etapa emplea un enfoque condicional basado en GAN para combinar estas texturas sintetizadas con el video authentic para generar rostros con pose e iluminación consistentes. Esta etapa se entrena adversariamente utilizando múltiples discriminadores para preservar simultáneamente la calidad visible, la suavidad temporal y la consistencia de la sincronización de labios. Finalmente, refinamos la salida utilizando una pink de súper resolución personalizada para generar un video fotorrealista con labios reanimados. Los movies de comparación que se muestran arriba también se pueden ver aquí.
![]() |
Figura 2: Tubería de reanimación de labios: bloques de inferencia en azul, bloques de entrenamiento en rojo. |
Alinearse con nuestros Principios de IA
Las técnicas descritas aquí caen en la categoría más amplia de generación de medios sintéticos, que legítimamente ha atraído el escrutinio debido a su potencial de abuso. La manipulación fotorrealista de movies podría usarse indebidamente para producir información falsa o engañosa que puede crear daños sociales posteriores, y los investigadores deben ser conscientes de estos riesgos. Sin embargo, nuestro caso de uso de doblaje de video destaca un posible resultado socialmente beneficioso de estas tecnologías. Nuestra nueva investigación en doblaje de voz podría ayudar a que las conferencias educativas, los videoblogs, el discurso público y otros formatos sean más accesibles para una audiencia world. Esto también solo se aplica cuando los propietarios del contenido y los hablantes han dado su consentimiento.
Durante nuestra investigación, seguimos nuestra guía Principios de IA por desarrollar e implementar esta tecnología de manera responsable. En primer lugar, trabajamos con los creadores para garantizar que cualquier contenido doblado se produzca con su consentimiento y que cualquier medio generado sea identificable como tal. En segundo lugar, estamos trabajando activamente en herramientas y técnicas para atribuir la propiedad del contenido authentic y modificado utilizando técnicas de marcas de agua digitales y de procedencia. Finalmente, nuestro objetivo central es la fidelidad al video en el idioma de origen. Las técnicas discutidas en este documento tienen ese único propósito, es decir, amplificar el beneficio social potencial para el usuario, al tiempo que preservan la naturaleza, el estilo y la intención del creador originales del contenido. Continuamos determinando la mejor manera de mantener e implementar estándares y salvaguardas de privacidad de datos antes de una implementación más amplia de nuestra investigación.
La oportunidad por delante
Creemos firmemente que el doblaje es un proceso creativo. Con estas técnicas, nos esforzamos por hacer que una gama más amplia de contenido esté disponible. y agradable en una variedad de otros idiomas.
Esperamos que nuestra investigación encourage el desarrollo de nuevas herramientas que democraticen el contenido de manera responsable. Para demostrar su potencial, hoy lanzamos contenido doblado para dos collection educativas en línea, IA para cualquiera y Fundamentos de aprendizaje automático con tensorflow sobre el Google Builders Latinoamérica canal.
Hemos estado trabajando activamente para ampliar nuestro alcance a más idiomas y grupos demográficos más amplios de hablantes; anteriormente hemos detallado este trabajo, junto con una discusión más amplia, en nuestros trabajos de investigación sobre transferencia de voz y reanimación de labios.