No, este no fue mi pedido: este enfoque mejora los modelos de IA de texto a imagen utilizando comentarios humanos


Los modelos de difusión han causado estragos en las aplicaciones de generación de imágenes en los últimos meses. El movimiento dirigido por difusión estable ha tenido tanto éxito en la generación de imágenes a partir de indicaciones de texto dadas que la línea entre las imágenes generadas por humanos y las generadas por IA se ha vuelto borrosa.

Aunque el progreso los convirtió en generadores de imágenes fotorrealistas, aún es un desafío alinear los resultados con las indicaciones de texto. Podría ser un desafío explicar lo que realmente desea generar para el modelo, y podría tomar muchas pruebas y errores hasta que obtenga la imagen que desea. Esto es especialmente problemático si desea tener texto en la salida o desea colocar ciertos objetos en ciertas ubicaciones de la imagen.

Pero si usó ChatGPT o cualquier otro modelo de lenguaje grande, probablemente notó que son extremadamente buenos para comprender lo que realmente quiere y generar respuestas para usted. Entonces, si el problema de alineación no existe para LLMS, ¿por qué todavía lo tenemos para los modelos de generación de imágenes?

Podría preguntar: “¿Cómo hicieron eso los LLM?” en primer lugar, y la respuesta es el aprendizaje por refuerzo con retroalimentación humana (RLHF). Los métodos RLHF inicialmente desarrollan una función de recompensa que captura los aspectos de la tarea que los humanos consideran importantes, utilizando la retroalimentación de los humanos sobre los resultados del modelo. Posteriormente, el modelo de lenguaje se ajusta utilizando la función de recompensa aprendida previamente.

¿No podemos usar el mismo enfoque que solucionó el problema de alineación de los LLM y aplicarlo a los modelos de generación de imágenes? Esta es exactamente la misma pregunta que hicieron los investigadores de Google y Berkeley. Querían traer el enfoque exitoso que solucionó el problema de alineación de LLM y transferirlo a modelos de generación de imágenes.

Su solución fue afinar el método para una mejor alineación utilizando comentarios humanos. Es una solución de tres pasos; generar imágenes a partir de un conjunto de pares; recopilar comentarios humanos sobre estas imágenes; entrene una función de recompensa con esta retroalimentación y utilícela para actualizar el modelo.

La recopilación de datos humanos comienza con un conjunto diverso de generación de imágenes utilizando el modelo existente. Esto se centra específicamente en indicaciones en las que los modelos entrenados previamente son propensos a errores, como generar objetos con colores, recuentos y fondos específicos. Luego, estas imágenes generadas son evaluadas por retroalimentación humana, y a cada una de ellas se le asigna una etiqueta binaria.

Una vez que se prepara el conjunto de datos recién etiquetado, la función de recompensa está lista para ser entrenada. Se entrena una función de recompensa para predecir la retroalimentación humana dada la imagen y el mensaje de texto. Utiliza una tarea auxiliar, que es identificar el mensaje de texto authentic dentro de un conjunto de mensajes de texto perturbados, para aprovechar la retroalimentación humana para recompensar el aprendizaje de manera más efectiva. De esta manera, la función de recompensa puede generalizarse mejor a imágenes invisibles y mensajes de texto.

El último paso es actualizar los pesos del modelo de generación de imágenes utilizando la maximización de probabilidad ponderada de recompensa para alinear mejor los resultados con la retroalimentación humana.

Este enfoque se probó ajustando la Difusión estable con pares de texto e imagen de 27K con retroalimentación humana. El modelo resultante fue mejor en la generación de objetos con colores específicos y mejoró la generación de composición.


Revisar la Papel. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


Ekrem Çetinkaya recibió su B.Sc. en 2018 y M.Sc. en 2019 de la Universidad Ozyegin, Estambul, Türkiye. Escribió su M.Sc. tesis sobre eliminación de ruido de imágenes utilizando redes convolucionales profundas. Actualmente está cursando un doctorado. Licenciada en la Universidad de Klagenfurt, Austria, y trabajando como investigadora en el proyecto ATHENA. Sus intereses de investigación incluyen el aprendizaje profundo, la visión synthetic y las redes multimedia.


Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram