¿Es posible detectar imágenes generadas por difusión estable? Este documento de AI busca la respuesta


Difusión estable. Si está interesado en el dominio de la IA, existe una gran posibilidad de que haya oído hablar de él. Estuvo por todas partes en los últimos meses. Los impresionantes resultados de aspecto realista generados por la difusión estable han iniciado una nueva period en el dominio de la generación de imágenes.

Los modelos de difusión se pueden guiar con mensajes de texto para generar ciertos tipos de imágenes. Por ejemplo, puede pedirle que genere una imagen de “un mono corriendo en la luna” o “una pantalla de aplicación móvil que usa limones como tema”. Los modelos de difusión tienen un gran potencial para convertirse en una poderosa herramienta para artistas, diseñadores de juegos, diseñadores de interfaz de usuario, and so forth.

Sin embargo, no todos son inocentes en el mundo. Cuando tiene una herramienta que puede generar imágenes fotorrealistas y la limitación de su capacidad de generación proviene principalmente de nuestra imaginación, existe una alta probabilidad de que se utilice con fines maliciosos. La posibilidad de generar medios falsos para cumplir ciertos objetivos de desinformación es una seria amenaza en la actualidad.

Sin embargo, ¿cómo podríamos prevenir esto? ¿Estamos preparados para una period de medios generados por IA en todas partes? ¿Cómo podemos estar seguros de que un modelo de IA no genera la imagen que vemos? ¿Es posible obtener la información “verdadera” en este nuevo mundo? ¿Qué tan fuerte será la influencia de los medios generados por IA en la próxima década?

Los investigadores ya han comenzado a buscar soluciones para detectar imágenes generadas por modelos de difusión. Una imagen generada por un modelo de difusión contiene características específicas. Por ejemplo, todavía carecen de un modelado 3D sólido; por lo tanto, provoca algunas asimetrías en las sombras y los objetos reflejados. Además, puede ver algunas inconsistencias en los rayos a lo largo de la imagen como resultado.

Estos problemas pueden explotarse para detectar una imagen generada por un modelo de difusión hoy en día hasta cierto punto. Sin embargo, una vez que los modelos de difusión solucionen esos problemas, lo que debería suceder pronto, dado el rápido avance en el campo, estos métodos no funcionarán. Confiar en las fallas de los modelos de difusión no es una solución a largo plazo para detectar imágenes generadas por IA.

La mayoría de los detectores de última generación no se basan en artefactos visibles. Utilizan trazos que no son visibles al ojo humano. Incluso si una imagen se ve perfecta, aún se puede identificar como generada por IA en función de las señales que quedan del proceso de generación. Estos rastros de generación son exclusivos del método utilizado para generar la imagen y son diferentes de los signos que dejan las cámaras reales. Además, cada algoritmo de generación deja un rastro único, que también se puede utilizar para determinar la fuente.

Estos enfoques de detección basados ​​en trazas han resultado útiles en las redes antagónicas generativas (GAN), pero el problema aún está lejos de resolverse. Cada iteración de la arquitectura de generación scale back la presencia de esos rastros. Además de eso, incluso los detectores más avanzados pueden fallar al generalizar a una estructura de modelo invisible. Además, esos detectores pueden sufrir mucho cuando baja la calidad de la imagen, lo que sucede todo el tiempo en las redes sociales, ya que cada plataforma tiene sus propias operaciones de compresión y reescalado.

Con todas estas preguntas y problemas por responder, los autores de este artículo propusieron algunos experimentos y posibles direcciones para detectar imágenes generadas por modelos de difusión. Primero examinaron si los modelos de difusión dejan un rastro como lo hacen las GAN y descubrieron que podían detectar parcialmente las imágenes usando los rastros. Los rastros que dejan los modelos de difusión no son tan fuertes como los modelos GAN, pero aún pueden usarse para detectar imágenes. Este no fue el caso de ciertos modelos de difusión como DALL-E 2, que casi no tenían artefactos distintivos.

Además, evaluaron el rendimiento de los detectores existentes en escenarios más realistas y descubrieron que la generalización sigue siendo el mayor problema. Si un modelo está entrenado para modelos GAN, tiene dificultades para detectar imágenes generadas por un modelo de difusión y viceversa.


Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro 13k+ ML SubReddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


Ekrem Çetinkaya recibió su B.Sc. en 2018 y M.Sc. en 2019 de la Universidad Ozyegin, Estambul, Türkiye. Escribió su M.Sc. tesis sobre eliminación de ruido de imágenes utilizando redes convolucionales profundas. Actualmente está cursando un doctorado. Licenciada en la Universidad de Klagenfurt, Austria, y trabajando como investigadora en el proyecto ATHENA. Sus intereses de investigación incluyen el aprendizaje profundo, la visión synthetic y las redes multimedia.


Related Articles

¿Cuándo dejaron de ser divertidos los rumores de Apple?

Bienvenido a nuestra columna Apple Breakfast de fin de semana,...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram