Josh Tobin, cofundador y director ejecutivo del proveedor de herramientas de aprendizaje automático Gantry, no quería creerlo al principio. Pero Tobin, quien anteriormente trabajó como investigador científico en OpenAI, finalmente llegó a la conclusión de que period cierto: el fin del modelado tradicional de ML está sobre nosotros.
La thought de que ya no es necesario entrenar un modelo de aprendizaje automático y puede obtener mejores resultados simplemente usando modelos listos para usar sin ajustar sus propios datos personalizados le pareció incorrecta a Tobin, quien pasó años aprendiendo cómo construir estos sistemas Cuando escuchó por primera vez la thought después de comenzar su negocio de herramientas ML Portalque cofundó en 2021 con sus compañeros IA abierta ex alumna Vicky Cheung, no quería creerlo.
“Las primeras cuatro o cinco veces que escuché eso, pensé, está bien, estas empresas simplemente no saben lo que están haciendo”, dijo Tobin. “Porque, obviamente, tengo una formación más clásica en el aprendizaje automático, por lo que mi visión del mundo es que entrenar modelos es realmente importante”.
Pero cuanto más escuchaba el estribillo, particularmente cuando se trataba del uso de modelos de lenguaje grandes (LLM) para construir sistemas predictivos de procesamiento de lenguaje pure (NLP), pero no exclusivamente, más llegaba a la conclusión de que period cierto.
“Una vez que lo escuché suficientes veces, me di cuenta de que hay una pizca de verdad en esto”, dijo. realmente necesita ajustarlo en sus datos en absoluto “.
Estamos en medio de una revolución en la forma en que se construyen los modelos ML. El ritmo de cambio es mayor en los LLM, como ChatGPT de OpenAI, BERT de Google y Co-Pilot de GitHub, que ya están capacitados en enormes cantidades de datos de propósito basic extraídos de Web y están ganando terreno por su capacidad para generar texto útil. basado en alguna otra entrada de texto o solicitud.
“Es bastante profundo cuando lo piensas”, dijo. datanami recientemente “Ahora es mucho más complicado ajustar un modelo, incluso en un conjunto de datos existente. Es mucho más barato y fácil si no tienes que ajustar los modelos”.
Eso no quiere decir que los desarrolladores no estén modificando las cosas con los LLM. Pero en lugar de cortar la parte superior de un modelo de transformador y volver a entrenarlo con sus propios datos, que ha sido el patrón aceptado para que los científicos de datos y los ingenieros de aprendizaje automático sean productivos con el aprendizaje profundo desde que el modelo ResNet se entrenó en el corpus de imagen de ImageNet datos alrededor de 2015: los usuarios tienen diferentes formas de obtener los resultados que desean.
Tobin explicó: “Todavía estás inyectando datos dependientes del contexto. Simplemente no lo estás haciendo entrenando. Lo estás haciendo por incitación, de manera efectiva. Y creo que es una forma mucho más rápida y fácil de inyectar datos específicos de su dominio en los modelos”.
Al inyectar datos en el modelo o solicitarlo, el desarrollador le cube al modelo lo que quiere que haga. Los usuarios que han interactuado con ChatGPT reconocerán el aviso como la pregunta que le haces, lo que le da al modelo el contexto necesario para generar la respuesta. Existen enfoques similares para otros modelos que utilizan una API en lugar de un mensaje de texto en una interfaz de usuario. Según Tobin, la API es basic para que esto funcione en otros productos de datos.
“El patrón de cómo las personas construyen estos sistemas es que en realidad no están entrenando modelos sobre esos datos”, dijo. “Lo que están haciendo es básicamente crear un corpus de incrustaciones para cada uno de esos documentos y están buscando esas incrustaciones. Entonces dicen ‘Oye, cuando un usuario hace una pregunta, déjame encontrar el documento que parece más relevante’”.
Es comparable a una función de búsqueda. Pero en lugar de entrenar explícitamente el modelo en un determinado dato, el desarrollador LLM moderno seleccionará un puñado de datos relevantes y los volcará en el indicador del modelo, a través de la API.
“La información relevante está siendo inyectada por heurística o alguna búsqueda de similitud que estás usando para decir, de este corpus de conocimiento, aquí están las cosas que probablemente sean más útiles para resolver la tarea que el usuario quiere que resuelvas”, Tobin dicho.
Hay varias razones por las que este enfoque funciona. Para empezar, los LLM ya han sido entrenados previamente en un enorme corpus de datos, esencialmente todo Web, y eso les permite detectar patrones. Los modelos, especialmente ChatGPT, también se han mostrado capaces de generalizar en un amplio grado. También son buenos en el aprendizaje de pocos disparos, dijo.
“Cuando estás haciendo este proceso de ingeniería de contexto, lo que estás haciendo es dar a los modelos un ejemplo o un contexto relevante que puede usar para responder las preguntas”, dijo. “Pero ese contexto relevante tal vez no sea nada que se haya visto antes. Esa podría ser información específica para su empresa que, en la forma ordinary de crear modelos de aprendizaje automático, tendría que ajustar el modelo.
“Pero dado que estos LLM han aprendido estos patrones de propósito basic sobre cómo tomar un documento y extraer información relevante, o cómo detectar un patrón en la forma en que las personas le piden que responda una pregunta y repiten el patrón, esos patrones generales se aprenden. por las modelos”, continuó. “Y luego, lo que estás haciendo es proporcionar un ejemplo específico del patrón que quieres que siga”.
Si bien el cambio en la técnica de desarrollo es más profundo con los LLM, no se limita a ellos, dijo Tobin.
“Creo que está ocurriendo un fenómeno comparable fuera de él, pero es más agudo con los modelos basados en transformadores”, dijo. “Creo que la importancia del modelado ha disminuido considerablemente en casi todas las ramas del aprendizaje automático”.
Cuando Tobin comenzó a trabajar en el aprendizaje automático en 2015, requirió mucho trabajo muy especializado. “Te estás golpeando la cabeza con los controladores CUDA y tratando de instalar Caffe y cosas así”, dijo. “A lo largo de los años se ha llegado a donde… simplemente sacas un modelo del estante y llamas a una API. Simplemente agregue algunos datos allí y ajústelos. Básicamente funciona de fábrica”.
Ahora, con los LLM, no hay necesidad de ajustar el modelo en absoluto.
Hay varias consecuencias de este nuevo enfoque. Para empezar, los usuarios ya no necesitan un nivel profundo de habilidad técnica para desarrollar un sistema que funcione. Dado que no está entrenando un modelo en el sentido clásico, no necesita tantos datos y no necesita discutir y limpiar todos los datos (aunque el etiquetado de datos sigue siendo importante en algunos contextos, dijo Tobin). Tampoco es necesario crear y administrar diferentes versiones de modelos, lo que elimina muchas más molestias.
“Todavía tiene que ingresar datos para que el modelo sepa qué problema está tratando de resolver, pero la forma en que los ingresa es aún más fácil e incluso más barata y requiere incluso menos habilidades de aprendizaje automático que ajustar un modelo que obtuvo. de una biblioteca”, dijo Tobin. “Entonces, la implicación es que será una habilidad accesible para una gama mucho más amplia de empresas y una gama mucho más amplia dentro de esas empresas, porque necesitan saber mucho sobre los conjuntos de habilidades de aprendizaje automático especializado para hacerlo”.
En lugar de un científico de datos en toda regla con un conocimiento profundo de un conocimiento específico y habilidades técnicas locas, como la capacidad de codificar en Assembler o C, la nueva generación de ingenieros rápidos no necesitará tanta capacitación formal. Necesitarán aprender algunos trucos para hacer que los sistemas sean rápidos, pero el enfoque en la ingeniería rápida en lugar de entrenar modelos ML con conjuntos de datos masivos tendrá grandes implicaciones, dijo Tobin.
“Algunas personas piensan que la ingeniería rápida es el próximo trabajo de moda. Creo que tal vez existan dos personas con el título de ingeniero rápido”, dijo. “Siempre habrá una necesidad de personas que puedan hacer las cosas de nivel inferior… Pero para la mayoría de las cosas que estás construyendo la mayor parte del tiempo , solo comprender el marco de nivel superior es suficiente para ser realmente productivo “.
Tomará un tiempo acostumbrarse a la ingeniería rápida. Es un enfoque decididamente diferente para lograr que los modelos de aprendizaje automático hagan lo que usted quiere que hagan. Pero es uno que seguramente se impondrá a medida que se adopten LLM como Co-Pilot, LaMDA y ChatGPT y comiencen a tener una influencia más amplia en el diseño de software program.
“Ha sido muy divertido de ver, especialmente durante el último año, y un poco aleccionador, como un ex investigador de ML que ha desarrollado mucho tiempo para entrenar modelos grandes”, dijo. “Es asombroso. Muchos de nosotros pasamos muchos años en la escuela aprendiendo cómo entrenar modelos de aprendizaje automático, y no es realmente cómo se construirá la próxima generación de modelos”.
Artículos relacionados:
Alucinaciones, plagio y ChatGPT
Modelos de lenguaje grande en 2023: ¿Vale la pena el bombo?
Los expertos no están de acuerdo sobre la utilidad del modelo de lenguaje grande
El cargo ¿Nos acercamos al closing del modelado de ML? apareció por primera vez en datanami.