Creación de Lakehouse para el cuidado de la salud y las ciencias de la vida: procesamiento de imágenes DICOM a escala con facilidad


Uno de los mayores desafíos para comprender el estado de salud del paciente y la progresión de la enfermedad es desbloquear información de la gran cantidad de tipos de datos semiestructurados y no estructurados en el cuidado de la salud. DICOM, que significa Digital Imaging and Communications in Drugs, es el estándar para la comunicación y gestión de información de imágenes médicas. Las imágenes médicas, que abarcan modalidades como CT, rayos X, PET, ultrasonido y MRI, son esenciales para muchos procesos de diagnóstico y tratamiento en el cuidado de la salud en especialidades que van desde la ortopedia hasta la oncología y la obstetricia.

El uso del aprendizaje profundo en imágenes médicas ha experimentado un aumento debido al aumento en el poder de cómputo a través de unidades de procesamiento de gráficos y la accesibilidad de grandes conjuntos de datos de imágenes.

El aprendizaje profundo se aplica para entrenar modelos que se pueden usar para automatizar parte del proceso de diagnóstico, mejorar la calidad de la imagen o extraer biomarcadores informativos de la imagen, por nombrar algunos. Esto tiene el potencial de reducir significativamente el costo de la atención. Sin embargo, la aplicación exitosa del aprendizaje profundo en imágenes médicas requiere acceso a una gran cantidad de imágenes combinadas con otra información de salud del paciente, así como una infraestructura que pueda acomodar ML a escala, mientras cumple con las restricciones regulatorias.

Los sistemas de gestión de datos tradicionales, como los almacenes de datos, no se adaptan a tipos de datos no estructurados, mientras que los lagos de datos no catalogan ni almacenan metadatos, lo cual es basic para encontrar y acceder a los datos. Databricks Lakehouse for Healthcare and Life Sciences aborda estas deficiencias al proporcionar un entorno escalable desde el cual puede ingerir, administrar y analizar todos sus tipos de datos. Específicamente en apoyo de DICOM, Databricks ha lanzado un nuevo Resolution Accelerator, databricks.pixelslo que facilita la integración de cientos de formatos de imágenes.

Por ejemplo, comenzamos con una biblioteca de 10 000 imágenes DICOM, la procesamos a través de la indexación, la extracción de metadatos y la generación de miniaturas. Luego lo guardamos en el Delta Lake confiable y rápido. Al consultar el catálogo de objetos, revelamos los metadatos del encabezado de la imagen DICOM, una miniatura, la ruta y los metadatos del archivo, como se muestra a continuación:

Visualización de ruta de archivo, metadatos de archivo, metadatos DICOM, miniatura
Visualización de ruta de archivo, metadatos de archivo, metadatos DICOM, miniatura

Con estos 7 comandos del databricks.pixels python, el usuario puede generar fácilmente un catálogo completo, metadatos y preparar miniaturas:


# imports
from databricks.pixels import Catalog		        		# 01
from databricks.pixels.dicom import *		           		# 02

# catalog all of your information
catalog = Catalog(spark)					                # 03
catalog_df = catalog.catalog(<path>)			           	# 04

# extract the Dicom metadata
meta_df = DicomMetaExtractor(catalog).remodel(catalog_df)	# 05


# extract thumbnails and show
thumbnail_df = DicomThumbnailExtractor().remodel(meta_df)	# 06


# save your work for SQL entry
catalog.save(thumbnail_df)					                # 07

En esta publicación de weblog, presentamos databricks.pixels, un marco para acelerar el procesamiento de archivos de imagen, con las capacidades de lanzamiento inaugural que incluyen:

  • Catalogación de archivos
  • Extracción de metadatos basados ​​en archivos
  • Extracción de metadatos de encabezados de archivos DICOM
  • Selección de archivos basados ​​en parámetros de metadatos a través de consultas SQL flexibles
  • Generación y visualización de miniaturas DICOM

El databricks.pixels Accelerator utiliza el paradigma Spark ML Transformer extensible, por lo que ampliar las capacidades y canalizar las capacidades se convierte en un ejercicio trivial para aprovechar el enorme poder que la arquitectura Lakehouse ofrece a los usuarios de análisis en el dominio de la salud y las ciencias biológicas.

Si bien Databricks Lakehouse pone a disposición de los usuarios el procesamiento de archivos de imágenes, databricks.pixel facilita la integración de las bibliotecas de código abierto DICOM reforzadas, el procesamiento paralelo de Spark y la sólida arquitectura de datos que ofrece Delta Lake. El flujo de datos es:

Análisis de metadatos de atributos DICOM usando SQL
Análisis de metadatos de atributos DICOM usando SQL

El estándar de oro para el procesamiento de imágenes DICOM son los paquetes de código abierto de pydicom, python-gdcm y la biblioteca gdcm c++. Sin embargo, el uso estándar de estas bibliotecas se limita a un solo núcleo de CPU, la orquestación de datos suele ser guide y carece de manejo de errores de grado de producción. La extracción de (meta)datos resultante está lejos de integrarse con la visión más amplia de Lakehouse.

desarrollamos un databricks.pixels para simplificar y escalar el procesamiento de DICOM y otros formatos de datos “no estructurados”, brindando los siguientes beneficios:

  1. Facilidad de usodatabricks.pixels cataloga fácilmente sus archivos de datos, capturando metadatos de archivos y rutas, mientras que la tecnología Transformer extrae metadatos propietarios. databricks.pixels democratiza el análisis de metadatos como se muestra a continuación.
  2. Escamasdatabricks.pixels escala fácilmente usando la administración de clústeres de Energy Spark y Databricks desde una sola instancia (1-8 núcleos) para estudios pequeños hasta 10 a 1000 de núcleos de CPU según sea necesario para procesamiento histórico o canalizaciones de producción de gran volumen.
  3. unificado – Desglose el silo de datos que actualmente almacena e indexa sus imágenes, catalogue e intégrelas con registros de salud electrónicos (EHR), reclamos, evidencia del mundo actual (RWE) y datos genómicos para obtener una imagen más completa. Habilite la colaboración y el gobierno de datos entre los equipos que trabajan en estudios pequeños y canalizaciones de producción que seleccionan datos.

como funciona todo

La plataforma Lakehouse de Databricks es una plataforma unificada para todas sus necesidades de procesamiento relacionadas con imágenes DICOM y otros tipos de archivos de imágenes. Databricks brinda fácil acceso a bibliotecas de código abierto bien probadas para realizar la lectura de archivos DICOM. Databricks Spark proporciona un marco escalable de orquestación paralela de datos de microtareas para procesar tareas de Python en paralelo. El administrador de clústeres de Databricks proporciona escalado automático y fácil acceso al proceso (CPU o GPU) necesario. Delta Lake proporciona un método confiable y versatile para almacenar los (meta) datos extraídos de los archivos DICOM. Los flujos de trabajo de Databricks proporcionan un medio para integrar y monitorear el procesamiento DICOM con el resto de sus datos y flujos de trabajo analíticos.

Empezando

Revise el archivo README.md en https://github.com/databricks-industry-solutions/pixels para más detalles y ejemplos. Para usar el acelerador, cree un clúster de Databricks con DBR 10.4 LTS. El Cuaderno 01-dcm-demo.py y el trabajo se puede usar inmediatamente para comenzar a catalogar sus imágenes.

Para ejecutar este acelerador, clone este repositorio en un área de trabajo de Databricks. Conecte el cuaderno RUNME a cualquier clúster que ejecute un tiempo de ejecución DBR 10.4 LTS o posterior y ejecute el cuaderno a través de Run-All. Se creará un trabajo de varios pasos que describa la canalización del acelerador y se proporcionará el enlace. Ejecute el trabajo de varios pasos para ver cómo se ejecuta la canalización. La configuración del trabajo se escribe en el cuaderno RUNME en formato json. El costo asociado con la ejecución del acelerador es responsabilidad del usuario.

Las imágenes ingeridas deben almacenarse en S3 o montarse a través de DBFSuse esta ruta como entrada para el primer parámetro del trabajo/cuaderno de demostración para la ruta.

Parámetros de trabajo DICOM
Parámetros de trabajo DICOM

Elija el catálogo, el esquema y la tabla para almacenar object_catalog. Seleccione el modo de actualización (sobrescribir o agregar) para elegir cómo actualizar su object_catalog.

El trabajo de demostración demostrará la carga y el análisis de archivos DICOM sin procesar. Para análisis, se demuestra el filtrado, las consultas basadas en SQL y la visualización de miniaturas.

Resumen

El databricks.pixels Resolution Accelerator es una manera fácil de iniciar la ingesta de imágenes DICOM en Lakehouse.

Más trabajo

databricks.pixels está diseñado para ser un marco para escalar el procesamiento de archivos con facilidad. Los usuarios buscan procesar archivos PDF, archivos ZIP, movies y más. Si tiene una necesidad, cree un problema de GitHub, contribuya con un transformador o solucionar un problema existente de github!

Related Articles

El gobierno de Estados Unidos intensifica su campaña de presión contra TikTok

La administración de Biden está intensificando su campaña de presión...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram