
(CKA/Shutterstock)
ChatGPT está arrasando en todo el mundo, gracias a su asombrosa capacidad para generar texto útil. Pero a medida que los modelos de lenguaje grande (LLM) en el corazón de servicios como ChatGPT crecen, también aumentan las probabilidades de ver emerger capacidades de IA aún más notables, según los investigadores de IA.
La carrera armamentista en torno a LLM se estaba calentando mucho antes IA abierta liberado ChatGPT para el mundo el 30 de noviembre de 2022. Gigantes tecnológicos como Google, Fby microsoft (que se asocia con OpenAI) ha estado ampliando los límites del aprendizaje profundo y el procesamiento del lenguaje pure (NLP) durante años, metiendo cada vez más capas en las redes neuronales, entrenándolas en conjuntos de datos cada vez más grandes, lo que resulta en un cada vez mayor número de parámetros que determinan la capacidad de los modelos para detectar con precisión patrones en el habla.
A principios de 2020, Microsoft Analysis tomó las envolturas fuera de Turing Pure Language Era (T-NLG), un LLM con 17 mil millones de parámetros, que period el modelo más grande de su tipo en ese momento. Unos meses más tarde, OpenAI subió el listón con el debut de GPT-3que lucía 175 mil millones de parámetros.
En febrero de 2021, Google modificó sus modelos T5 que presentó en 2019 con el lanzamiento de su Swap Transformer, que pesaba la friolera de 1,6 billones de parámetros. Google lanzó su Pathways Language Mannequin (PaLM), con 540 mil millones de parámetros, en abril de 2022. Fb también ha sido un jugador en este juego, y en mayo de 2022, lanzó OPT-175B, un modelo de lenguaje grande basado en transformador con hasta 175 mil millones de parámetros, que coincide con GPT-3. La empresa matriz de Fb, Meta, puso a disposición del público OPT-175B.
Posiblemente estemos a solo unas semanas del debut de GPT-4. Si bien OpenAI se ha mantenido en silencio sobre los detalles de este lanzamiento tan esperado, se rumorea que GPT-4 contendrá 100 billones de parámetros, lo que lo convertiría en el LLM más grande del mundo.
Si bien ha estado de moda minimizar la importancia de los grandes datos en los últimos años, la “grandeza” de los LLM es la fuente precisa de todas las nuevas capacidades y la emoción. De hecho, los investigadores están esperando ansiosamente qué nuevas capacidades podrían extraer de los LLM a medida que aumentan el tamaño aún más.

Lista de habilidades emergentes de LLM y la escala en la que emergen las habilidades (Fuente: “Habilidades emergentes de modelos de lenguaje grande”)
Este fenómeno se presentó en un artículo de agosto de 2022 titulado “Habilidades emergentes de modelos de lenguaje grande”. Investigadores de Google Mind, DeepMind, la Universidad de Stanford y la Universidad de Carolina del Norte discutieron sobre la posibilidad de ver capacidades “emergentes” inesperadas que surgen de sus modelos de lenguaje de gran tamaño.
Lanzar más {hardware} y datos a un problema ha sido un método confiable para obtener mejores respuestas durante décadas. Esta ha sido una técnica de referencia utilizada por la comunidad de computación de alto rendimiento (HPC) para resolver desafíos difíciles en ciencia e ingeniería, y que los piratas informáticos de Silicon Valley han estado tratando de replicar en servidores estándar de la industria durante las últimas dos décadas. .
Pero lo que la gente de Google, DeepMind, Stanford y UNC describen es algo muy diferente.
“Se ha demostrado que la ampliación de los modelos de lenguaje mejora de manera predecible el rendimiento y la eficiencia de las muestras en una amplia gama de tareas posteriores”, escriben los autores. “En cambio, este documento analiza un fenómeno impredecible al que nos referimos como habilidades emergentes de los grandes modelos de lenguaje”.
La concept de emergencia ha sido bien documentada en la literatura científica. Un poco de uranio no hace mucho, observó Jacob Steinhart, profesor asistente en el Departamento de Estadística de UC Berkeley, en “Los futuros sistemas de aprendizaje automático serán cualitativamente diferentes”. Pero cuando lo empaquetas lo suficientemente denso, obtienes una reacción nuclear. Lo mismo ocurre con otras sustancias y fenómenos, como el ADN, el agua, el tráfico y la especialización.
Ahora estamos viendo capacidades inesperadas que emergen de los LLM. Los investigadores de Google, DeepMind, Stanford y UNC documentaron más de 20 capacidades emergentes en una variedad de LLM que probaron, incluidos GPT-3, LaMDA, PaLM, T5, Chinchilla, Gopher y Anthropic.
El tamaño del LLM no fue un predictor del 100% de ver una capacidad emergente en las diversas pruebas comparativas que realizaron los investigadores. De hecho, se observaron algunas propiedades emergentes en algunos LLM que eran más pequeños que otros. Pero los investigadores dicen que las capacidades emergentes son una característica de estos grandes modelos, así como la forma en que están entrenados y estimulados para generar una respuesta.

¿Aparecerán más capacidades a medida que los modelos crezcan? (Fuente: documento “La escala desbloquea habilidades emergentes en modelos de lenguaje”)
Entre las capacidades emergentes documentadas por los investigadores se encuentran la suma/resta; comprensión masiva del lenguaje multitarea (MMLU); clasificación de toxicidad, veracidad; palabra en contexto, seguimiento de instrucciones; y otros.
¿Qué nuevas capacidades emergentes veremos a medida que los LLM crezcan? Eso es difícil de decir, ya que todo el fenómeno fue imprevisto. Pero los investigadores de IA definitivamente están atentos.
Un investigador que está trabajando en este campo es Jason Wei de Google Mind. En su reciente presentación de Stanford titulada “La escala desbloquea habilidades emergentes en modelos de lenguaje”, Wei cube que una técnica de LLM llamada impulso de cadena de pensamiento (COT) doblará la curva de rendimiento hacia arriba. Específicamente, Wei cube que los LLM que están diseñados para ser guiados con “metadatos” a través de un proceso de razonamiento pueden generar mejores resultados.
La combinación de LLM más grandes y sugerencias COT permitirá abordar problemas más grandes, como problemas matemáticos, razonamiento simbólico y razonamiento desafiante del sentido común. Estos son problemas que los LLM capacitados tradicionalmente que utilizan métodos de orientación estándar tendrán dificultades para lograr, cube.
“La capacidad de los modelos de lenguaje para hacer un razonamiento de varios pasos surge con la escala, desbloqueando nuevas tareas”, como la cadena de pensamiento y el trabajo de seguimiento, cube en su presentación. “Hay motivos para creer que los modelos lingüísticos seguirán creciendo y mejorando. Es posible que surjan aún más habilidades nuevas”.
Puedes ver la presentación de Wei aquí.
Artículos relacionados:
¿Nos acercamos al remaining del modelado de ML?
Microsoft detalla un modelo masivo de lenguaje de parámetros de 17 mil millones