Una nueva investigación de IA de UC Berkeley propone una tarea D5 y un conjunto de datos de referencia para hacer que los LLM investiguen


Los métodos utilizados para extraer enormes bases de datos en busca de nuevos conocimientos son advert hoc y consumen mucho tiempo. Este tipo de descubrimientos se pueden hacer más rápidamente con la ayuda del aprendizaje automático (ML). Sin embargo, las métricas utilizadas para evaluar los hallazgos y los datos que los informan difieren entre las aplicaciones, y ML, por lo tanto, requiere una medida de evaluación uniforme y un espacio de entrada y salida. Para automatizar, comparar, aprender y evaluar procedimientos de descubrimiento dispares, necesitamos una descripción unificada del problema.

La tarea D5, propuesta por los investigadores, es un método orientado a objetivos para descubrir diferencias en las distribuciones utilizando descripciones lingüísticas. Este hallazgo debe cumplir con dos criterios: (1) debe ser verdadero (es decir, el predicado es más verdadero para el corpus A que para el B), y (2) debe estar impulsado por el propósito del estudio y, por lo tanto, debe ser relevante, innovador, y digno de mención.

Los investigadores han formalizado una de esas familias, la identificación de diferencias entre distribuciones de texto mediante descripciones lingüísticas, como un trabajo de aprendizaje automático con métricas unificadas y un espacio de entrada-salida (D5). La tarea D5 se estudia con OPEND5, un conjunto de metadatos que compila 4,4 millones de muestras de texto en 675 funciones D5 abiertas en negocios, ciencias sociales, humanidades, salud y aprendizaje automático. Estos 675 problemas se recopilaron durante nueve meses mediante una combinación de encuestas en papel, sesiones de establecimiento de objetivos, extracción de corpus y posprocesamiento.

D5 se puede utilizar en una gran cantidad de contextos. Lo usamos para analizar los cambios de distribución, el estilo lírico, los patrones de error en los sistemas de PNL y los temas del habla según la demografía. Cada vez que se desarrolla un sistema D5 más efectivo, puede realizar automáticamente hallazgos significativos en una agregación existente de preguntas abiertas, como OPEND5, y luego enviar esos descubrimientos a los investigadores que originalmente plantearon los problemas. Debido a los desafíos abiertos en OPEND5, el sistema puede hacer descubrimientos con calificaciones de validez más altas. Con este fin, desarrollamos una técnica de aprendizaje autosupervisado para mejorar la capacidad de un modelo de lenguaje para ofrecer hipótesis más creíbles, guiados por la concept de que verificar un hallazgo es menos difícil que crearlo.

Evaluación de Resultados

  • Los investigadores no deben utilizar medidas de diversidad en su trabajo. Idealmente, nuestro sistema produciría todos los posibles hallazgos legítimos y relevantes.
  • Las métricas utilizadas por los investigadores aún no consideran si existe o no una correlación entre un hallazgo y la metodología utilizada para crear el par de corpus correspondiente.
  • La experiencia en el dominio es necesaria para dar sentido a los descubrimientos. Sin embargo, muchos hallazgos requieren comprensión técnica para una interpretación precisa.

La hipótesis se reescribió para “incluir jerga o frases coloquiales” usando GPT-3, que los investigadores usaron para descubrir y eliminar automáticamente los comparativos de las hipótesis. Desafortunadamente, los casos más persistentes de este problema requieren más trabajo para solucionarlos. Para ver dónde sobresale cada aerolínea y dónde se queda corta, por ejemplo, examine las evaluaciones de vuelos en American Airways (AA) y Delta Airways. Después de presentar GPT3 con nuestro objetivo de estudio y una pequeña muestra de cada corpus, le pedimos que generara un conjunto de hipótesis. Se demostró que GPT-3 utiliza la descripción precisa para ofrecer hipótesis más relevantes, únicas y notables.

Los investigadores concluyen que los modelos de lenguaje pueden usar los objetivos para sugerir descubrimientos de candidatos más relevantes, únicos y notables cuando se les proporciona el conjunto de datos y las métricas unificadas. Hay nuevos hallazgos posibles gracias al sistema todo el tiempo. No obstante, todavía son posibles muchas mejoras; en explicit, los autores no son expertos en los problemas abiertos que los investigadores han compilado, y la evaluación es solo una aproximación a los autores sobre una amplia gama de aplicaciones en OPEND5, como las diferencias temporales y demográficas en los temas de discusión, las posturas políticas y los estereotipos. en el habla, insights en reseñas comerciales y patrones de error en modelos NLP.


Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas FinTech que cubren el dominio financiero, de tarjetas y pagos y bancario con un gran interés en las aplicaciones de IA. Está entusiasmada con la exploración de nuevas tecnologías y avances en el mundo cambiante de hoy en día, haciendo que la vida de todos sea más fácil.


Related Articles

Actualice su computadora portátil a esta MacBook Air reacondicionada sin arruinarse

Agradecemos a nuestro patrocinador por hacer posible este contenido; ...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram