Los elementos técnicos de GPT-4


OpenAI ha anunciado la creación de GPT-4, un gran modelo multimodal capaz de aceptar entradas de imágenes y texto mientras emite salidas de texto. El modelo exhibe un desempeño a nivel humano en varios puntos de referencia profesionales y académicos, aunque es menos capaz que los humanos en muchos escenarios del mundo actual. Por ejemplo, el puntaje del examen de barra simulado de GPT-4 está alrededor del 10% superior de los examinados, en comparación con el puntaje de GPT-3.5, que estaba alrededor del 10% inferior. OpenAI pasó 6 meses alineando iterativamente GPT-4 usando lecciones de su programa de pruebas adversarias y otras fuentes. Como resultado, el modelo funciona mejor que las versiones anteriores en áreas como la factualidad, la capacidad de dirección y mantenerse dentro de las medidas de seguridad, pero aún hay margen de mejora.

La diferencia entre GPT-3.5 y GPT-4 puede ser sutil en conversaciones informales, pero se vuelve evidente cuando se trata de tareas complejas. GPT-4 supera a GPT-3.5 en cuanto a confiabilidad, creatividad y capacidad para manejar instrucciones matizadas. Se utilizaron varios puntos de referencia para probar la diferencia entre los dos modelos, incluidos los exámenes simulados originalmente destinados a humanos. Las pruebas utilizadas fueron las últimas disponibles públicamente o los exámenes de práctica de 2022-2023 comprados explícitamente para este propósito. No se realizó ningún entrenamiento específico para estos exámenes, aunque el modelo previamente encontró una pequeña parte de los problemas durante el entrenamiento. Los resultados obtenidos se consideran representativos y se pueden encontrar en el informe técnico.

Algunos de los resultados de las comparaciones

Entradas visuales

GPT-4 puede procesar entradas de texto e imágenes, lo que permite a los usuarios especificar cualquier idioma o tarea de visión. Puede generar salidas de texto como lenguaje pure y código basado en entradas que incluyen texto e imágenes en varios dominios, como documentos con texto, fotografías, diagramas o capturas de pantalla. GPT-4 muestra capacidades similares en entradas mixtas y de solo texto. También se puede mejorar con técnicas desarrolladas para modelos de lenguaje de solo texto, como sugerencias de pocas tomas y de cadena de pensamientos. Sin embargo, la función de entrada de imágenes aún se encuentra en la fase de investigación y no está disponible públicamente.

Limitaciones

A pesar de sus impresionantes capacidades, GPT-4 comparte limitaciones similares con sus predecesores. Una de sus principales limitaciones es su falta de complete fiabilidad, ya que todavía tiende a producir información incorrecta y errores de razonamiento, comúnmente conocidos como “alucinaciones”. Por lo tanto, es basic tener cuidado al utilizar los resultados del modelo de lenguaje, especialmente en situaciones de alto riesgo. Para abordar este problema, se deben adoptar diferentes enfoques, como la revisión humana, la puesta a tierra con contexto adicional o evitar por completo los usos de alto riesgo, en función de los casos de uso específicos.

Aunque todavía enfrenta desafíos de confiabilidad, GPT-4 muestra mejoras significativas en la reducción de alucinaciones en comparación con los modelos anteriores. Las evaluaciones internas de objetividad contradictoria indican que GPT-4 obtiene un puntaje 40 % más alto que el último modelo GPT-3.5, que mejoró considerablemente con respecto a iteraciones anteriores.

El modelo de lenguaje, GPT-4, puede mostrar sesgos en sus resultados a pesar de los esfuerzos por reducirlos. El conocimiento del modelo se limita a eventos anteriores a septiembre de 2021 y necesita aprender de la experiencia. A veces puede cometer errores de razonamiento, ser demasiado crédulo y fallar en problemas difíciles, related a los humanos. GPT-4 puede hacer predicciones incorrectas con confianza, y su calibración se scale back a través del proceso posterior al entrenamiento precise. Sin embargo, se están realizando esfuerzos para garantizar que el modelo tenga comportamientos predeterminados razonables que reflejen una amplia gama de valores de los usuarios y que se puedan personalizar dentro de ciertos límites con aportes del público.


Revisar la Documento técnico y Artículo de OpenAI. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


Niharika es pasante de consultoría técnica en Marktechpost. Ella es una estudiante de tercer año, actualmente cursando su B.Tech del Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia synthetic y una ávida lectora de los últimos desarrollos en estos campos.


Related Articles

Experimentación rápida con análisis en tiempo actual

Es posible que escuche la frase de que el mundo...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram