Un nuevo paradigma para editar modelos de aprendizaje automático basados ​​en operaciones aritméticas sobre vectores de tareas


Cada vez es más común utilizar el entrenamiento previo a gran escala para desarrollar modelos empleados como base para sistemas de aprendizaje automático más especializados. Desde un punto de vista práctico, a menudo es necesario cambiar y actualizar dichos modelos después de haberlos entrenado previamente. Los objetivos para el procesamiento posterior son numerosos. Por ejemplo, es basic mejorar el rendimiento del modelo previamente entrenado en tareas específicas, abordar los sesgos o el comportamiento no deseado, alinear el modelo con las preferencias humanas o incorporar nueva información.

El último trabajo de un equipo de investigadores de la Universidad de Washington, Microsoft Analysis y el Instituto Allen para la IA desarrolla un método inteligente para alterar el comportamiento de modelos preentrenados basados ​​en vectores de tareas, que se obtienen restando los pesos preentrenados. de un modelo ajustado en una tarea. Más precisamente, los vectores de tarea se definen como la diferencia de elementos entre los pesos de los modelos pre-entrenados y ajustados. Con este fin, los vectores de tareas se pueden aplicar a cualquier parámetro del modelo mediante la suma de elementos y un término de escala opcional. En el documento, los términos de escala se determinan utilizando conjuntos de validación retenidos.

Los autores demuestran que los usuarios pueden realizar operaciones aritméticas simples en estos vectores de tareas para cambiar modelos, como negar el vector para eliminar comportamientos indeseables o desaprender tareas o agregar vectores de tareas para mejorar los modelos multitarea o el rendimiento en una sola tarea. También muestran que cuando las tareas forman una relación de analogía, los vectores de tareas se pueden combinar para mejorar el rendimiento en tareas donde los datos son escasos.

Fuente: https://arxiv.org/pdf/2212.04089.pdf
Fuente: https://arxiv.org/pdf/2212.04089.pdf

Los autores muestran que el enfoque concebido es confiable para olvidar el comportamiento no deseado tanto en los dominios de la visión como del texto. Experimentan con modelos CLIP originales y ajustados para el dominio de la visión en varios conjuntos de datos (p. ej., Vehicles, EuroSAT, MNIST, and many others.). Como se ve en la Tabla 1 del artículo, la negación de los vectores de tarea es un método confiable para disminuir el desempeño en la tarea objetivo (hasta 45.8 puntos porcentuales para ViT-L) y dejar casi la precisión authentic para la tarea de management. Para el dominio del lenguaje (Tabla 2), muestran que los vectores de tareas negativas reducen seis veces el número de generaciones tóxicas de un modelo GPT-2 Giant mientras que dan como resultado un modelo con una perplejidad comparable en una tarea de management (WikiText-103).

Fuente: https://arxiv.org/pdf/2212.04089.pdf

La adición de vectores de tareas también puede mejorar los modelos previamente entrenados. En el caso de la clasificación de imágenes, agregar vectores de tareas de dos tareas mejora la precisión en ambas, lo que da como resultado un solo modelo que es competitivo con el uso de dos modelos especializados ajustados (figura 2). En el dominio del lenguaje (punto de referencia de GLUE), los autores muestran que agregar vectores de tareas a modelos basados ​​en T5 previamente entrenados es mejor que ajustar, incluso si las mejoras son más modestas en este caso.

Finalmente, realizar analogías de tareas con vectores de tareas permite mejorar el rendimiento en tareas de generalización de dominios y subpoblaciones con pocos datos. Por ejemplo, para obtener un mejor rendimiento en imágenes raras específicas (p. ej., leones en interiores), se puede construir un vector de tarea agregando al vector de tarea león-exterior la diferencia entre los vectores de tarea de perros en interiores y exteriores. Como se ve en la Figura 4, dicho modelado permite mejoras claras para dominios en los que hay pocas imágenes disponibles.

En resumen, este trabajo introdujo un nuevo enfoque para editar modelos mediante la realización de operaciones aritméticas en vectores de tareas. El método es eficiente y los usuarios pueden experimentar fácilmente con varias ediciones de modelos reciclando y transfiriendo conocimientos de extensas colecciones de modelos ajustados disponibles públicamente.


Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 13k+ ML, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


Lorenzo Brigato es Investigador Postdoctoral en el centro ARTORG, una institución de investigación afiliada a la Universidad de Berna, y actualmente está involucrado en la aplicación de la IA a la salud y la nutrición. Tiene un doctorado. Licenciado en Informática por la Universidad Sapienza de Roma, Italia. Su doctorado La tesis se centró en los problemas de clasificación de imágenes con distribuciones de datos deficientes en muestras y etiquetas.


Related Articles

Trabajar con números de punto flotante en Java

Hay dos tipos de números que normalmente usamos para la...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

Trabajar con números de punto flotante en Java

Hay dos tipos de números que normalmente usamos...

El robotic Atlas da un gran salto en percepción y manipulación de objetos

Boston Dynamics continúa sorprendiéndonos con el progreso de...
spot_img

Stay in touch!

Follow our Instagram