Los desarrollos tecnológicos recientes han llevado a la adopción generalizada de grandes modelos previamente entrenados para realizar varias tareas. Estos modelos, que antes podían resumir textos y traducir entre idiomas, ahora se pueden usar para tareas más complejas como responder preguntas, escribir código e incluso componer música. Otro dominio en el que grandes modelos previamente entrenados han demostrado un rendimiento notable es la investigación en el dominio de la biología molecular. La investigación en biología molecular también ha demostrado que los grandes modelos previamente entrenados funcionan muy bien. Para proporcionar predicciones precisas y rápidas de los atributos moleculares, ahora se pueden enseñar algoritmos de aprendizaje automático para inferir las formas y características específicas de las moléculas. Esto es particularmente útil en el desarrollo de nuevos fármacos y nuevos materiales.
Aunque algunos algoritmos de aprendizaje automático supervisado han mostrado resultados prometedores, el enorme espacio químico y la escasez de etiquetas dificultan el aprendizaje supervisado. Los químicos pueden obtener este conocimiento a través de simulaciones o pruebas de laboratorio, pero es un procedimiento costoso y laborioso que puede llevar incluso años. Recientemente, los investigadores han intentado utilizar modelos de lenguaje basados en transformadores no supervisados que están previamente entrenados en un gran corpus sin anotaciones para abordar este problema. Estos modelos han logrado un rendimiento de última generación en muchas tareas posteriores de procesamiento de lenguaje pure.
MoLFormer-XL, un modelo de IA preentrenado que infiere la estructura de las moléculas a partir de representaciones simples, fue presentado recientemente por investigadores de IBM para abordar este problema de cuello de botella de datos anotados limitados sobre formas moleculares. Este modelo preentrenado hace que sea considerablemente más easy y rápido seleccionar moléculas para nuevas aplicaciones o crearlas desde cero. MoLFormer-XL se ha presentado como parte de la familia MoLFormer de modelos básicos para el descubrimiento molecular. Los conjuntos de datos de PubChem y ZINC que contenían 1100 millones de moléculas sin marcar se usaron para entrenar previamente a MoLFormer-XL. El beneficio de utilizar estas representaciones químicas simples es que permite que un transformador extraiga suficientes detalles para deducir la estructura y función de una molécula.
Para pronosticar el comportamiento molecular dada la estructura de una molécula, los modelos moleculares existentes dependen en gran medida de Graph Neural Networks. La principal desventaja de los modelos gráficos es que con frecuencia necesitan mecanismos sofisticados y simulaciones extensas para representar con precisión las interacciones atómicas dentro de las moléculas. Esto restringe el tamaño de los conjuntos de datos moleculares, lo que cut back la capacidad del modelo para generar predicciones más amplias. MoLFormer-XL, por el contrario, está preentrenado en un conjunto de datos de 1.100 millones de moléculas, donde cada molécula se representa como una cadena utilizando la notación SMILES (Sistema de entrada de línea de entrada molecular simplificado). Cada cadena SMILES brinda una gran cantidad de información sobre la estructura química subyacente al describir cómo se organizan los átomos en las moléculas objetivo para el desarrollo de fármacos y materiales.
MoLFormer-XL fue entrenado para enfocarse en las interacciones entre los átomos representados en cada cadena SMILES utilizando una incrustación rotacional novedosa que registra la posición relativa de un carácter. Según los investigadores, el modelo podría aprender características estructurales que simplificaron enormemente el aprendizaje de tareas posteriores debido a este contexto molecular adicional. Además, MoLFormer-XL también puede pronosticar la solubilidad de una molécula, la actividad antiviral y otras características biofísicas y fisiológicas, como su capacidad para atravesar la barrera hematoencefálica.
Los investigadores de IBM tienen la esperanza de que MoLFormer-XL pronto sea una herramienta útil para descubrir nuevas moléculas por sus características deseadas debido a su capacidad para aprender de manera eficiente las estructuras de una gama tan amplia de moléculas. Después de varias evaluaciones experimentales, los investigadores concluyeron que MoLFormer-XL superó a otras redes neuronales gráficas y modelos de lenguaje supervisados y autosupervisados en diez puntos de referencia de propiedades moleculares y logró resultados notables en los otros dos. Sin embargo, la razón principal detrás del notable rendimiento logrado por MoLFormer-XL radica en su tamaño, que se produce a costa de la eficiencia computacional. El modelo requiere recursos computacionales y tiempo de entrenamiento significativos, que los investigadores intentaron optimizar siempre que fue posible. El rendimiento excepcional de MoLFormer-XL ofrece una prueba esperanzadora de que los modelos de lenguaje molecular a gran escala pueden recopilar suficientes datos químicos y estructurales para predecir varias características moleculares únicas.
Revisar la Papel y Weblog de IBM. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro 13k+ ML SubReddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Khushboo Gupta es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Goa. Le apasionan los campos del aprendizaje automático, el procesamiento del lenguaje pure y el desarrollo internet. Le gusta aprender más sobre el campo técnico al participar en varios desafíos.