Presentación de la recopilación de metadatos de MongoDB Atlas con rastreadores de AWS Glue


Para los clientes de lagos de datos que necesitan descubrir petabytes de datos, Rastreadores de AWS Glue son una forma common de descubrir y catalogar datos en segundo plano. Esto permite a los usuarios buscar y encontrar datos relevantes de múltiples fuentes de datos. Muchos clientes también tienen datos en bases de datos operativas administradas como MongoDB Atlas y necesitan combinarlos con datos de Servicio de almacenamiento easy de Amazon (Amazon S3) lagos de datos para obtener información. Los rastreadores de AWS Glue ahora son compatibles con MongoDB Atlas, lo que simplifica la comprensión de la evolución de las colecciones de MongoDB y la extracción de información significativa.

Pegamento AWS es un servicio de integración de datos sin servidor que simplifica el descubrimiento, la preparación, el movimiento y la integración de datos de múltiples fuentes para análisis, aprendizaje automático (ML) y desarrollo de aplicaciones.

Mongo DB Atlas es un servicio de datos para desarrolladores del socio tecnológico de AWS MongoDB, Inc.. El servicio combina procesamiento transaccional, búsqueda basada en relevancia, análisis en tiempo actual y sincronización de datos de móvil a nube en una arquitectura integrada.

Con el lanzamiento de hoy, puede crear y programar un rastreador de AWS Glue para rastrear MongoDB Atlas. En la configuración del rastreador, puede seleccionar MongoDB como fuente de datos. A continuación, puede crear una conexión de AWS Glue con MongoDB Atlas y proporcionar el nombre y las credenciales del clúster de MongoDB Atlas. Te guiamos a través de este proceso en esta publicación.

Descripción normal de la solución

La siguiente arquitectura ilustra cómo puede escanear una base de datos y colecciones de MongoDB Atlas utilizando AWS Glue.

Con cada ejecución del rastreador, el rastreador inspecciona la información de colecciones y catálogos específicos, como actualizaciones o eliminaciones de colecciones, vistas y vistas materializadas de MongoDB Atlas en AWS Glue Information Catalog. En AWS Glue Studio, puede usar AWS Glue Information Catalog como fuente para extraer datos de MongoDB Atlas y completar un destino de Amazon S3. Finalmente, este trabajo puede ejecutar y leer datos de MongoDB Atlas y escribir los resultados en Amazon S3, lo que abre posibilidades para integrarse con servicios de AWS como Amazon SageMaker, Amazon QuickSighty más.

En las siguientes secciones, describimos cómo crear un rastreador de AWS Glue con MongoDB Atlas como fuente de datos. Luego creamos una conexión de AWS Glue y proporcionamos la información y las credenciales del clúster de MongoDB Atlas. Luego especificamos la base de datos y las colecciones de MongoDB Atlas para rastrear.

requisitos previos

Para seguir esta publicación, debe tener acceso a MongoDB Atlas y al Consola de administración de AWS. También asumimos que tiene acceso a una VPC con subredes preconfiguradas a través de Nube privada digital de Amazon (VPC de Amazon). El rastreador que configuramos más adelante en la publicación se ejecuta en la VPC y se conecta a MongoDB Atlas a través de un Enlace privado de AWS punto last

Configurar MongoDB Atlas

Para configurar MongoDB Atlas, full los siguientes pasos:

  1. Configure un clúster de MongoDB en AWS. Para obtener instrucciones, consulte Cómo configurar un clúster de MongoDB.
  2. Configure PrivateLink siguiendo los pasos descritos en Conexión segura de aplicaciones a un plano de datos de MongoDB Atlas con AWS PrivateLink.

Esto nos permite simplificar nuestra arquitectura de crimson y asegurarnos de que el tráfico permanezca en la crimson de AWS.

A continuación, obtenemos la cadena de conexión del clúster de MongoDB de la interfaz de usuario de Join en la consola de MongoDB Atlas.

  1. En la consola de MongoDB Atlas, seleccione Conectar, punto last privadoy Método de conexión.
  2. Copie la cadena de conexión SRV.

Usamos esta cadena de conexión SRV en los pasos posteriores.

La siguiente captura de pantalla muestra que hemos cargado una colección de muestra en MongoDB Atlas, que rastrearemos en los siguientes pasos. Tenga en cuenta que los registros de esta colección incluyen varias matrices, así como datos anidados.

Configure la conexión de MongoDB Atlas con AWS Glue

Antes de que podamos configurar el rastreador de AWS Glue, debemos crear la conexión de MongoDB Atlas en AWS Glue.

  1. En la consola de AWS Glue Studio, elija Conectores en el panel de navegación.
  2. Elegir Crear conexión.

  1. Al completar los detalles de la conexión, use la cadena de conexión SRV que obtuvimos anteriormente en MongoDB Atlas.
  2. En el Opciones de crimson sección, la VPC y las subredes deben corresponder a la configuración de PrivateLink que configuró anteriormente.

Crear un rastreador MongoDB

Después de crear la conexión, podemos crear un rastreador de AWS Glue.

  1. En la consola de AWS Glue, elija rastreadores en el panel de navegación.
  2. Elegir Crear rastreador.

  1. Para Nombreingresa un nombre.
  2. Para la fuente de datos, elija la fuente de datos de MongoDB Atlas que configuramos anteriormente y proporcione la ruta que corresponde a la base de datos y la colección de MongoDB Atlas.

  1. Configure sus ajustes de seguridad, salida y programación.

  1. Sobre el rastreadores página, elige Ejecutar rastreador.

Una vez que el rastreador termina de rastrear las colecciones de MongoDB, su estado se muestra como Terminado.

Revise la base de datos y la tabla de MongoDB AWS Glue

Podemos navegar al catálogo de datos de AWS Glue para examinar las tablas que creó el rastreador.

Elija la tabla para ver el esquema y otros metadatos.

Tenga en cuenta que el rastreador capturó datos anidados como STRUCT y enumeró correctamente los campos ARRAY.

Importar datos de MongoDB Atlas a Amazon S3

Ahora usamos la tabla AWS Glue Information Catalog basada en MongoDB Atlas para realizar una importación de datos sin escribir código. Usamos AWS Glue Studio para crear código repetitivo rápidamente. Como alternativa, puede compilar la secuencia de comandos en el editor de secuencias de comandos.

  1. En la consola de AWS Glue Studio, elija Trabajos en el panel de navegación.
  2. Elegir crear trabajo.
  3. Seleccionar Objeto visible con un origen y un destino.
  4. Elija la tabla Information Catalog como origen y Amazon S3 como destino.

  1. En la interfaz de usuario de AWS Glue Studio, proporcione parámetros adicionales, como el nombre del depósito de S3, y elija la base de datos y la tabla en los menús desplegables.

  1. A continuación, revise el script generado creado por AWS Glue Studio. Ahora necesitamos agregar una base de datos y una colección en el script de la siguiente manera:
additional_options = {"database": "sample_airbnb","assortment": "listingsAndReviews"},

Cuando se completa el trabajo de ETL, los datos extraídos están disponibles en Amazon S3.

  1. En la consola de Amazon S3, elija cubos en el panel de navegación.
  2. Elija nuestro depósito y carpeta que contiene los archivos extraídos.
  3. Elija un archivo y en la Comportamiento menú, elige Consulta con S3 Choose para ver el contenido del archivo.

Limpiar

Para evitar incurrir en cargos por los servicios utilizados en este tutorial, full los siguientes pasos para eliminar sus recursos:

  1. En la consola de AWS Glue, elija rastreadores en el panel de navegación.
  2. Seleccione su rastreador y en el Acción menú, elige Eliminar rastreador.
  3. En la consola de AWS Glue Studio, elija Ver trabajos.
  4. Seleccione el trabajo que ha creado y en la Comportamiento menú, elige Eliminar trabajo(s).
  5. Regrese a la consola de AWS Glue y elija Mesas en el panel de navegación.
  6. Seleccione su mesa y elija Borrar.
  7. Elegir bases de datos en el panel de navegación.
  8. Seleccione su base de datos y elija Borrar.
  9. En la consola de Amazon VPC, elija Puntos finales en el panel de navegación.
  10. Seleccione el punto last de PrivateLink que creó y en la Comportamiento menú, elige Eliminar puntos de enlace de la VPC.

Conclusión

En esta publicación, mostramos cómo configurar un rastreador de AWS Glue para rastrear una colección de MongoDB Atlas, recopilar metadatos y crear registros de tablas en el catálogo de datos de AWS Glue. Con la tabla de catálogo de datos, creamos un proceso ETL utilizando la interfaz de usuario de AWS Glue Studio para extraer datos de la colección de MongoDB Atlas en un depósito S3 sin escribir una sola línea de código.

Puede probarlo usted mismo configurando un Rastreador de AWS Gluecreando un trabajo ETL de AWS Glue con Estudio de pegamento de AWSy lanzamiento MongoDB Atlas desde un QuickStart o de MongoDB Atlas en el mercado de AWS.

Un agradecimiento especial a todos los que contribuyeron con el lanzamiento de esta característica del rastreador: Julio Montes de Oca, Mita Gavade y Alex Prazma.


Sobre los autores

Igor Alekseev es socio sénior de arquitectura de soluciones en AWS en el dominio de datos y análisis. En su función, Igor está trabajando con socios estratégicos ayudándolos a construir arquitecturas complejas optimizadas para AWS. Antes de unirse a AWS, como arquitecto de soluciones/datos, implementó muchos proyectos en el dominio de Huge Information, incluidos varios lagos de datos en el ecosistema de Hadoop. Como ingeniero de datos, participó en la aplicación de AI/ML a la detección de fraudes y la automatización de oficinas.

Sandeep Adwankar es gerente sénior de productos técnicos en AWS. Con sede en el Área de la Bahía de California, trabaja con clientes de todo el mundo para traducir los requisitos comerciales y técnicos en productos que permitan a los clientes mejorar la forma en que administran, protegen y acceden a los datos.

Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram