La edición de video es un proceso esencial de inteligencia synthetic (IA) crítico para crear contenido visible. La edición de video implica manipular, reorganizar y mejorar las secuencias de video para producir un producto remaining con las características deseadas. Este proceso puede llevar mucho tiempo y mucho trabajo, pero los avances de la IA han hecho que la edición de movies sea más fácil y rápida.
El uso de IA en la edición de video ha revolucionado la forma en que creamos y analizamos el contenido de video. Con la ayuda de algoritmos avanzados y modelos de aprendizaje automático, los editores de video y los investigadores ahora pueden lograr resultados antes inalcanzables.
Una técnica fashionable de IA para la edición de movies se basa en la inversión de GAN, que consiste en proyectar una imagen actual en el espacio latente de un GAN preentrenado para obtener un código latente. De esta forma, la imagen de entrada puede reconstruirse alimentando el código latente en la GAN previamente entrenada. Al cambiar el código latente, se pueden lograr muchos efectos creativos de edición semántica para imágenes.
Sin embargo, estos enfoques a menudo carecen de preservación de la identidad o reconstrucciones semánticamente precisas.
Por ejemplo, las técnicas de inversión de GAN como IDE-3D o PTI no pueden manejar elementos fuera de distribuciones (OOD), que se refieren a distribuciones de datos poco comunes, como oclusiones de objetos en marcos de rostros. IDE-3D puede producir una edición fiel pero no conserva la identidad de la cara de entrada. PTI proporciona una mayor preservación de la identidad, pero la precisión semántica sufre.
Para obtener tanto la preservación de la identidad como la reconstrucción fiel, se ha propuesto un marco de edición e inversión de video basado en GAN denominado In-N-Out.
En este trabajo, los autores confían en el renderizado de volumen compuesto para generar múltiples campos de radiación durante el renderizado.
Una descripción normal de la arquitectura está disponible a continuación.
La concept central es descomponer la representación 3D del video con el objeto OOD en una parte dentro de la distribución y una parte fuera de la distribución y componerlos juntos para reconstruir el video en una forma de representación volumétrica compuesta. En el caso bidimensional, sería como pegar una imagen (que representa un objeto de oclusión, como una pelota) sobre otra (en este caso, una cara).
Los autores explotan EG3D como la columna vertebral de GAN suitable con 3D y aprovechan su representación de tres planos para modelar esta canalización de representación compuesta. Para el elemento de distribución (es decir, la cara pure), los píxeles se proyectan en el espacio latente de EG3D. Para la parte fuera de distribución, los autores utilizan un triplano adicional para representarla. Posteriormente, estos dos campos de radiación se combinan en una representación volumétrica compuesta para reconstruir la entrada. Durante la etapa de edición, la parte de distribución, es decir, el código latente, es independiente de la parte OOD y se edita por separado. Además, los píxeles reconstruidos relacionados con la parte OOD enmascarada no se consideran en el proceso.
Según los autores, este enfoque propuesto trae tres ventajas principales. En primer lugar, al componer la distribución de entrada y la distribución de salida juntas, el modelo logra una reconstrucción de mayor fidelidad. En segundo lugar, al editar solo la parte en distribución, se mantiene la capacidad de edición. En tercer lugar, al aprovechar las GAN compatibles con 3D, el video de la cara de entrada se puede representar desde puntos de vista novedosos.
A continuación se presenta una comparación del método mencionado y otros enfoques de última generación.
Este fue el resumen de In-N-Out, un novedoso framework de IA para la inversión y edición de movies faciales con descomposición volumétrica.
Revisar la Papel y Proyecto. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Daniele Lorenzi recibió su M.Sc. en TIC para Ingeniería de Web y Multimedia en 2021 de la Universidad de Padua, Italia. Él es un Ph.D. candidato en el Instituto de Tecnología de la Información (ITEC) en la Alpen-Adria-Universität (AAU) Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler ATHENA y sus intereses de investigación incluyen transmisión de video adaptable, medios inmersivos, aprendizaje automático y evaluación de QoS/QoE.