La investigación sobre el preentrenamiento de la visión y el lenguaje (VLP) ha avanzado rápidamente en los últimos años. Se han creado modelos pre-entrenados de escala progresivamente mayor para avanzar continuamente en el estado del arte en numerosas tareas posteriores. Sin embargo, debido al entrenamiento integral con modelos y conjuntos de datos a gran escala, la mayoría de los modelos de visión y lenguaje de vanguardia sufren un costo de cálculo sustancial durante el preentrenamiento.
Dado que la visión y el lenguaje están entrelazados en la investigación de la visión y el lenguaje, se espera que los modelos de visión y lenguaje se basen en los modelos unimodales ampliamente accesibles de las comunidades de visión y lenguaje pure.
Un trabajo reciente de los investigadores de Salesforce presenta BLIP-2: Bootstrapping Language-Picture Prediction, una técnica VLP basic y eficiente en computación que utiliza modelos unimodales congelados para el entrenamiento previo. Esta técnica se creó mediante el arranque de modelos de visión y lenguaje preentrenados disponibles comercialmente. Los modelos de lenguaje grande (LLM), en specific, brindan una excelente producción de lenguaje y capacidades de transferencia de cero disparos. En diversas tareas de visión y lenguaje, como la respuesta a preguntas visuales, el subtitulado de imágenes y la recuperación de texto de imágenes, BLIP-2 se desempeña a la vanguardia.
Para utilizar modelos unimodales previamente entrenados para VLP, debe ser posible la alineación intermodal. Los modelos unimodales preentrenados no se mueven durante el preentrenamiento para ahorrar costos de computación y evitar olvidos catastróficos. Sin embargo, congelarlos hace que la alineación entre la visión y el lenguaje sea particularmente difícil porque los LLM no han visto ninguna imagen durante su preentrenamiento unimodal. Este estudio demuestra que la pérdida de generación de imagen a texto utilizada por enfoques anteriores en este contexto es insuficiente para cerrar la brecha de modalidad.
Flamingo es uno de los primeros sistemas que utilizaba una pérdida generativa de imagen a texto. Una pérdida generativa, sin embargo, no es suficiente para cerrar la diferencia de modalidad. Con modelos unimodales congelados, los investigadores sugieren un transformador de consulta (QFormer) preentrenado con una nueva técnica de preentrenamiento de dos etapas para lograr una alineación efectiva entre visión y lenguaje. Q-Former es un transformador easy que extrae información visible de un codificador de imágenes congeladas utilizando una colección de vectores de consulta entrenables. Entre el codificador de imágenes congeladas y el LLM congelado, funciona como un cuello de botella para la información, proporcionando la función visible más útil al LLM para que pueda generar el texto necesario.
Ejecutan el aprendizaje de representaciones de visión y lenguaje en la etapa inicial de preentrenamiento, obligando al Q-Former a aprender las representaciones visuales más pertinentes al texto. Al vincular el Q-output Former a un LLM congelado durante el segundo paso de preentrenamiento, el equipo realiza un aprendizaje generativo de visión a lenguaje y entrena al Q-Former para que el LLM pueda comprender su representación visible.
El Q-Former liviano y el uso de modelos unimodales congelados hacen que BLIP-2 sea más eficiente en computación que el estado del arte precise. En VQAv2 de disparo cero, BLIP-2 funciona un 8,7 % mejor que Flamingo mientras usa 54 parámetros menos entrenables.
Los hallazgos demuestran que BLIP-2 es un enfoque basic que puede recolectar modelos unimodales más sofisticados para mejorar el rendimiento de VLP. FlanT5, BLIP-2 y LLM ofrecen nuevas capacidades como razonamiento de conocimiento visible, comunicación visible, and so forth., al permitir la generación de imagen a texto sin disparo que se adhiere a las instrucciones del lenguaje pure. El desarrollo de LLM y modelos de visión preentrenados puede ser simplemente cosechado por BLIP-2. Los investigadores creen que esto es essential para crear una IA conversacional multimodal inteligente.
Revisar la Papel y GitHub. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro 13k+ ML SubReddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Tanushree Shenwai es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Bhubaneswar. Es una entusiasta de la ciencia de datos y tiene un gran interés en el ámbito de aplicación de la inteligencia synthetic en varios campos. Le apasiona explorar los nuevos avances en tecnologías y su aplicación en la vida actual.