Esta es una publicación colaborativa de Databricks y wisecube.ai. Agradecemos a Vishnu Vettrivel, fundador, y a Alex Thomas, científico de datos principal, por sus contribuciones.
Las compañías farmacéuticas descubren, desarrollan y comercializan medicamentos innovadores para algunas de las enfermedades más graves del mundo. Un enfoque de I+D basado en datos puede aumentar la tasa de éxito para el descubrimiento de fármacos, así como una gestión más segura de los ensayos clínicos. Sin embargo, un obstáculo clave para esta innovación es la incapacidad de aprovechar toda la información científica disponible más rápido que el ritmo de los nuevos datos que ingresan.
Los datos de I+D a menudo se originan a partir de millones de puntos de datos y miles de fuentes. Esto incluye tecnologías de alto rendimiento como la genómica y la proteómica, el uso creciente de registros médicos electrónicos y otras fuentes digitales de datos. La disponibilidad de estos datos ha impulsado un aumento significativo en la investigación publicada en todas las áreas de las ciencias biomédicas. Para las organizaciones farmacéuticas, el análisis sistemático de estas publicaciones, también conocido como metanálisis, juega un papel clave en la medicina basada en la evidencia que ayuda a acelerar la I+D, optimizar el diseño de los ensayos clínicos y llevar nuevos medicamentos al mercado con mayor rapidez.
El metanálisis puede dar como resultado una estimación más precisa del efecto del tratamiento o del issue de riesgo de la enfermedad. También proporciona un marco para la revisión exhaustiva y cuantitativa de un cuerpo de investigación complejo y, en ocasiones, contradictorio. Además del metanálisis, la aplicación de métodos analíticos avanzados a una gran cantidad de literatura puede conducir al descubrimiento de nuevos conocimientos. Por ejemplo, el uso de métodos predictivos en una base de conocimiento integrada puede ayudar identificar variantes genéticas informativas que podría haberse pasado por alto con los métodos comúnmente utilizados.
Hay mucho en juego si las organizaciones farmacéuticas no logran identificar e integrar los estudios existentes en su metanálisis. Eso puede conducir a conclusiones engañosas, lo que impide el progreso de I+D en un entorno de investigación regulado, lo que retrasa el tiempo de comercialización. La dependencia de plataformas de datos heredadas que no escalan y los silos de datos suelen ser factores que contribuyen.
Las organizaciones pueden extraer información significativa que puede resultar en nuevos medicamentos diseñados para ayudar a las personas a vivir una vida más saludable al eliminar estas barreras de escala. En esta publicación de weblog, hablamos sobre algunos de estos desafíos en el contexto del descubrimiento de conocimiento en la investigación biomédica y discutimos cómo un enfoque unificado de datos y análisis puede abordar estos desafíos.
Desafío #1 (Conectar): Crear significado semántico a partir de conjuntos de datos inconexos
La investigación biomédica y los ensayos clínicos son quizás algunos ejemplos clásicos del crecimiento explosivo del volumen de datos en las ciencias de la vida. Durante el período 2004-2013, se agregaron a PubMed más de 7,3 millones de artículos de revistas, un aumento del 48,9 % con respecto a 2003.
Esta es una de las principales razones por las que Pubmed ha adoptado un vocabulario controlado como MeSH. En MEDLINE/PubMed, cada artículo de revista se indexa con alrededor de 10 a 15 encabezados de materia, subtítulos y registros de conceptos complementarios, y algunos de ellos se designan como importante y marcado con un asterisco, indicando los temas principales del artículo.
En ClinicalTrials.gov, cada ensayo tiene palabras clave que describen el ensayo. El equipo de ClinicalTrials.gov asigna a cada ensayo dos conjuntos de términos MeSH. Un conjunto es para las condiciones estudiadas por el ensayo y el otro es para el conjunto de intervenciones utilizadas en el ensayo.
Esto permite a los investigadores hablar un idioma común entre diferentes fuentes de datos con una comprensión y una semántica compartidas. Desafortunadamente, esta capa semántica a menudo se ignora en los lagos de datos modernos y, por lo basic, es una ocurrencia tardía.

Desafío #2 (Enriquecer): Aumente y desbloquee el conocimiento oculto de los datos conectados.
La integración de datos biomédicos de manera conectada ayuda a recuperar rápidamente información oculta. Estas redes semánticas también ayudan a reducir los errores y aumentan las posibilidades de hacer un descubrimiento de manera rentable. Para descubrir correlaciones ocultas entre datos médicos, los analistas utilizan diferentes técnicas, como la predicción de enlaces. Al explorar visualmente estas correlaciones entre entidades médicas, los científicos pueden tomar decisiones oportunas sobre opciones de tratamiento sensibles.

Además, las organizaciones deben poder modelar la gobernanza al llevar la inteligencia synthetic (AI) y el aprendizaje automático (ML) a un entorno clínico. Desafortunadamente, la mayoría de las organizaciones tienen plataformas separadas para flujos de trabajo de ciencia de datos que están desconectadas de su almacén de datos. Esto crea serios desafíos cuando se trata de generar confianza y reproducibilidad en aplicaciones impulsadas por IA. Aquí es donde ayuda tener una representación explicable y transparente de los datos.

Desafío n.º 3 (Descubrir): acceda al gráfico conectado para crear conocimientos y aplicaciones.

Una vez que los datos estén centralizados en un gráfico de conocimiento, deberíamos poder construir potentes análisis de crimson y modelos predictivos directamente en el gráfico.
Más importante aún, debemos poder hacer que todos estos datos sean accesibles para la mayoría de las personas de la organización. La mayoría de las personas en cualquier organización son no practicantes de datos. Lo que significa que no dominan SQL o SPARQL u otros lenguajes de consulta de datos. Dado esto, es esencial proporcionar capacidades analíticas y de consulta utilizando estándares abiertos como SPARQL. Pero lo que es más importante, permitir que los usuarios finales que no son expertos en datos puedan acceder a esta información de una manera easy e intuitiva.
A menudo, se trata de un proceso iterativo en el que los usuarios comienzan con una consulta easy y se basan en ella para hacerla cada vez más compleja para satisfacer sus necesidades más específicas. Además, es posible que los usuarios deseen combinar palabras clave de lenguaje pure junto con entidades semánticas para consultar el gráfico de conocimiento de manera poderosa.
Las herramientas de consulta deben admitir procesos de consulta tan complejos e iterativos para permitir que los expertos del dominio consulten de forma incremental el gráfico de conocimiento para analizar y obtener información. Sin embargo, muchos no hacen esto hoy.
Uso de Delta Lake para construir un gráfico de conocimiento
Para resolver los desafíos descritos anteriormente para las organizaciones de ciencias de la vida y de la salud, los gráficos de conocimiento pueden ser una excelente solución para superarlos. Sin embargo, hay varios obstáculos nuevos que superar para implementar realmente un gráfico de conocimiento de nivel empresarial que maneje datos en constante cambio y problemas relacionados con el management de versiones, instantáneas, reproducibilidad y gobernanza de datos, sin dejar de ser escalable, versatile y eficaz como su lago de datos principal. .
Es por eso que creemos firmemente que la respuesta no es construir otra base de datos de gráficos de conocimiento en silos, sino construir en su lago de datos. Esto no solo es más rentable y cut back los gastos generales para que sus equipos de datos construyan, mantengan y administren, sino que también puede ser mejor para sus usuarios finales, ya que evitará los problemas típicos con múltiples fuentes de datos, como la latencia de datos y los problemas de sincronización.

Como base se encuentra la plataforma Databricks Lakehouse, una arquitectura de datos moderna que combina los mejores elementos de un almacén de datos con el bajo costo, la flexibilidad y la escala de un lago de datos en la nube. Esta arquitectura simplificada y escalable permite a las organizaciones de atención médica reunir todos sus datos (estructurados, semiestructurados y no estructurados) en una única plataforma de alto rendimiento para el análisis tradicional y la ciencia de datos.
Específicamente, los gráficos de conocimiento creados en Delta Lake brindan los siguientes tres beneficios principales para las organizaciones de ciencias biológicas y de atención médica:
- Conectar: Organice todos sus datos de investigación y desarrollo utilizando una ontología versatile pero específica del dominio. En el centro de Wisecube Data Graph se encuentra lago delta, una capa de administración de datos que brinda confiabilidad y rendimiento para su lago de datos en la nube. A diferencia de un almacén de datos tradicional, Delta Lake admite todo tipo de datos estructurados y no estructurados. Para facilitar aún más la ingesta de datos, Wisecube ha creado conectores para conjuntos de datos específicos de I+D, como ensayos clínicos, MeSH y otros. Además, Wisecube proporciona optimizaciones integradas para consultas de gráficos e IA para acelerar significativamente el análisis basado en gráficos. Con estas capacidades, los equipos pueden colocar todos sus datos sin procesar en un solo lugar y luego seleccionarlos para crear una vista holística de todos sus datos biomédicos.
- Enriquecer: Wisecube Data Graph proporciona una arquitectura unificada para datos estructurados y no estructurados. También tiene módulos que le permiten sintetizar nuevos conocimientos a través de análisis de crimson avanzados como predicción de enlaces. Además, al ejecutar el gráfico de conocimiento completamente en Databricks, las organizaciones pueden escalar automáticamente según la carga de trabajo.
- Descubrir: Al casarse con estándares abiertos como SPARQL Con las capacidades de Databricks, las organizaciones pueden admitir una amplia gama de casos de uso de gran impacto, desde el descubrimiento de fármacos hasta programas de gestión de enfermedades crónicas. Eso convierte a Wisecube Data Graph en un almacén de datos supreme para administrar datos de salud y ciencias de la vida.
Comience a crear su Gráfico de conocimiento para el cuidado de la salud y las ciencias de la vida con Graphster y Delta Lake

Presentamos una nueva biblioteca de código abierto basada en Apache Spark: gráfico, diseñado específicamente para la construcción, el análisis y la consulta de gráficos de conocimiento escalables y de extremo a extremo a partir de datos estructurados y no estructurados. La biblioteca graphster toma una colección de documentos, extrae menciones y relaciones para completar un gráfico de conocimiento sin procesar y luego enriquece el gráfico de conocimiento con datos de Wikidata. Una vez que se crea el gráfico de conocimiento, Graphster también puede ayudar a consultar de forma nativa el gráfico de conocimiento utilizando SPARQL.
También nos complace poner a su disposición Creación de un gráfico de conocimiento mediante ensayos clínicos como un acelerador de soluciones para ayudar a las organizaciones de ciencias de la vida a comenzar a construir un gráfico de conocimiento para sus necesidades específicas. Nuestro acelerador de soluciones incluye datos de muestra, código preconstruido e instrucciones paso a paso dentro de un cuaderno de Databricks. Le muestra cómo ingerir datos de ensayos clínicos, darles semántica al estructurar los datos usando la ontología MeSH y luego analizarlos a escala usando consultas SPARQL. Para empezar, echa un vistazo al acelerador aquí.