Uso del conector nativo de Amazon MSK para Rockset


El conector nativo de Rockset para Amazon Managed Streaming para Apache Kafka (MSK) simplifica y agiliza la incorporación de datos de transmisión para análisis en tiempo actual. Amazon MSK es un servicio de AWS completamente administrado que brinda a los usuarios la capacidad de crear y ejecutar aplicaciones mediante Apache Kafka. Amazon MSK proporciona operaciones de plano de management, como la creación y eliminación de clústeres, al tiempo que permite a los usuarios utilizar operaciones de plano de datos de Apache Kafka para producir y consumir datos.

Con la integración de MSK, los usuarios no necesitan construir, implementar ni operar ningún componente de infraestructura en el lado de Kafka. Así es como Rockset facilita la ingesta de datos de transmisión de MSK con esta integración de datos:

  • Rockset administra completamente la integración y se puede configurar con solo unos pocos clics, de acuerdo con nuestra filosofía de hacer que el análisis en tiempo actual sea accesible.
  • La integración es continua, por lo que cualquier dato nuevo en el tema de Kafka se indexará en Rockset, lo que ofrece una latencia de datos de extremo a extremo de alrededor de dos segundos.
  • No es necesario crear previamente un esquema para ejecutar análisis en tiempo actual en flujos de eventos de Kafka. Rockset indexa todo el flujo de datos, de modo que cuando se agregan nuevos campos, se exponen de inmediato y se pueden consultar mediante SQL.

Bajo el capó

La integración de Kafka de Rockset adopta la API de consumo de Kafka, que es una biblioteca Java estándar de bajo nivel que se puede integrar fácilmente en las aplicaciones para seguir los datos de un tema de Kafka.

Cuando crea una nueva colección a partir de una integración de Amazon MSK y especifica uno o más temas, Rockset rastrea esos temas utilizando la API de consumidor de Kafka y devour datos en tiempo actual. Rockset maneja todo el trabajo pesado, como la verificación de progreso y el tratamiento de casos de fallas comunes con el Agregador Leaf Tailer Structure (ALT). Rockset gestiona completamente las compensaciones de consumo, sin guardar ninguna información dentro del clúster de un cliente. Cada trabajador de ingesta recibe su propia asignación de partición de tema y las últimas compensaciones procesadas durante la inicialización del coordinador de ingesta, y luego aprovecha el consumidor integrado para obtener datos de tema de Kafka.

La principal diferencia entre Amazon MSK y Kafka confluente en la integración de Kafka de Rockset es cómo nos autenticamos con su clúster. Amazon MSK utiliza IAM para la autenticación segura, por lo que agregamos compatibilidad con la autenticación de IAM mediante los roles de IAM de cuentas cruzadas de AWS. Cuando crea una nueva integración de Amazon MSK y proporciona un rol de IAM entre cuentas, Rockset se autentica con su clúster de MSK utilizando el Biblioteca Amazon MSK para IAM.

Amazon MSK y Rockset para análisis en tiempo actual

Tan pronto como los datos de eventos llegan a MSK, Rockset los indexa automáticamente para consultas SQL de menos de un segundo. Puede buscar, agregar y unir datos en temas de Kafka y otras fuentes de datos, incluidos datos en S3, MongoDB, DynamoDB, Postgres y más. Luego, simplemente convierta la consulta SQL en una API para servir datos en su aplicación.

También hemos probado la carga de la nueva integración de MSK con datos de muestra y varias configuraciones de carga, enviando un rendimiento máximo de aproximadamente 33 MB/s.


amazon-msk-1

Configuración rápida de Amazon MSK

Configurar la integración

Para configurar una integración de Amazon MSK, primero vaya a la página de integraciones en la consola de Rockset. Seleccione la opción Amazon MSK y haga clic en “Iniciar” para comenzar a crear su integración MSK y proporcione información para que Rockset se conecte a su clúster.


MSKIntegrationStart

Proporcione un nombre para su integración junto con una descripción opcional. Cree una nueva política de IAM y adjunte la política a un rol de IAM nuevo o existente para otorgar a Rockset acceso de lectura a su clúster de MSK. Proporcione el ARN del rol para el rol de IAM y la URL de los servidores de arranque desde el tablero de su clúster de MSK.


MSKCreateIntegration1


MSKCreateIntegration2

Crear una colección

Una colección en Rockset es comparable a una tabla en el mundo SQL. Para crear una colección, simplemente agregue detalles, incluidos los temas de Kafka que desea que Rockset consuma. El desplazamiento inicial le permite rellenar los datos históricos, así como capturar las últimas transmisiones.


MSKCreateCollection

Consultar datos de temas usando SQL

Tan pronto como se ingieren los datos, Rockset indexará los datos en un Índice convergente para análisis rápidos a escala. Esto significa que puede consultar datos semiestructurados y profundamente anidados usando SQL sin necesidad de realizar ninguna preparación de datos o ajuste de rendimiento.

En este ejemplo, podemos simplemente escribir una consulta SQL en los datos de Amazon MSK para los que acabamos de configurar la integración, pasando de la configuración a la consulta en cuestión de minutos.


MSKQuery

Estamos entusiasmados de continuar facilitando a los desarrolladores y equipos de datos el análisis de datos de transmisión en tiempo actual. Si es usuario de Amazon MSK, ahora es más fácil que nunca con Rockset soporte nativo para MSK.



Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram