Presentamos Cloudera DataFlow Designer: diseño de flujo de datos sin código y de autoservicio


Cloudera ha brindado soporte empresarial para Apache NiFi desde 2015, ayudando a cientos de organizaciones a tomar el management de sus canalizaciones de movimiento de datos en las instalaciones y en la nube pública. Trabajar con estas organizaciones nos ha enseñado mucho sobre las necesidades de los desarrolladores y administradores cuando se trata de desarrollar nuevos flujos de datos y brindarles soporte en entornos de producción de misión crítica.

En 2021 nosotros lanzó Cloudera DataFlow para la nube pública (CDF-PC), abordando los desafíos operativos que enfrentan los administradores cuando ejecutan flujos de NiFi en entornos de producción. Los usuarios existentes de NiFi ahora pueden traer sus flujos de NiFi y ejecutarlos en nuestro servicio en la nube mediante la creación de implementaciones de DataFlow que se benefician del escalado automático, actualizaciones de la versión de NiFi con un solo botón, monitoreo centralizado a través de KPI, soporte de múltiples nubes y automatización a través de un comando poderoso -interfaz de línea (CLI). Recientemente, nosotros anunció la disponibilidad basic de DataFlow Capabilitieslo que permite que los flujos de NiFi se ejecuten en entornos informáticos sin servidor, como AWS Lambda, Azure Capabilities o Google Cloud Capabilities.

Con las implementaciones de DataFlow y las funciones de DataFlow disponibles, los administradores de flujo ahora pueden elegir la mejor opción para ejecutar sus flujos de datos en producción en la nube pública. Ahora, nos enfocamos en las necesidades de los desarrolladores y abordamos los desafíos que enfrentan al crear flujos de datos en la nube.

Habilitación del autoservicio para desarrolladores

Los desarrolladores deben incorporar nuevas fuentes de datos, encadenar varios pasos de transformación de datos y explorar los datos a medida que viajan a través del flujo. Valoran la interfaz de usuario visible, sin código, de arrastrar y soltar de NiFi, los más de 450 procesadores y conectores listos para usar, así como la capacidad de explorar datos de forma interactiva al iniciar procesadores individuales en el flujo y ver de inmediato el impacto a medida que los datos fluyen a través del flujo.

Hemos observado organizaciones usar más y más fuentes y destinos de datos, además de esperar una gama más diversa de desarrolladores para crear flujos de movimiento de datos. Esta observación enfatiza aún más la necesidad de una accesibilidad common para desarrolladores., cual se asegura de que las herramientas para desarrolladores sean fáciles de usar para los recién llegados, al mismo tiempo que brinda a los usuarios avanzados las opciones avanzadas que necesitan. Un aspecto crítico de la accesibilidad common para desarrolladores es proporcionar desarrollo de flujo de datos como una oferta de autoservicio para desarrolladores. Este es un desafío porque los desarrolladores deben administrar su propia instalación native de Apache NiFi o se requiere un equipo de plataforma para administrar un entorno de desarrollo centralizado que todos los desarrolladores pueden usar.

¿Qué pasaría si hubiera una manera de no requerir que los desarrolladores administren su propia instalación de Apache NiFi sin poner esa carga en los administradores de la plataforma? ¿Qué pasaría si pudiéramos proporcionar un entorno de desarrollo de autoservicio fácil de administrar para desarrolladores que cualquiera pueda comenzar a usar de inmediato?

Estas son las preguntas que nos hicimos, y estoy emocionado de anunciar la vista previa técnica. de DataFlow Designer, haciendo realidad el desarrollo de flujo de datos de autoservicio para los clientes de Cloudera.

Un editor visible reinventado para aumentar la productividad de los desarrolladores y habilitar el autoservicio

En el núcleo de nuestra nueva experiencia de desarrollador de autoservicio se encuentra el nuevo DataFlow Designer, que refuerza las funciones más populares de NiFi al tiempo que realiza mejoras clave en la experiencia del usuariotodo presentado en una mirada fresca y sensación.

Figura 1: El lienzo de Designer con un aspecto y una sensación completamente nuevos

Una mejora clave con respecto al lienzo Apache NiFi tradicional es el nuevo panel lateral de configuración expandible, que permite a los desarrolladores editar rápidamente las configuraciones del procesador sin perder el enfoque de lo que sucede en el lienzo. El panel lateral es wise al contexto y muestra instantáneamente información de configuración relevante a medida que navega a través de sus componentes de flujo.

Figura 2: No pierda de vista el lienzo mientras aplica los cambios de configuración en el panel lateral

Otro ejemplo de cómo el nuevo diseñador de flujo facilita la vida de un desarrollador es la capacidad de cargar archivos directamente a través de la interfaz de usuario del diseñador. En los entornos de desarrollo tradicionales de NiFi, los desarrolladores requerirían acceso SSH a las instancias de NiFi para cargar archivos o pedirían a sus administradores que lo hicieran por ellos. Tener la capacidad de cargar archivos como controladores JDBC, scripts de Python, and many others. directamente en el diseñador hace que la creación de nuevos flujos sea mucho más autoservicio.

Figura 3: Cargue fácilmente archivos directamente a través del diseñador sin necesidad de acceso SSH a los servidores

Hablando de parámetrosson un concepto importante para hacer que sus flujos de datos sean portátiles. Después de todo, es muy possible que esté desarrollando su flujo en sistemas de prueba, pero en producción debe ejecutarse en sistemas de producción, lo que significa que la configuración de la conexión de origen y destino debe ajustarse. La mejor manera de hacerlo es parametrizando estos valores de configuración de conexión, lo que le permite conectar diferentes valores al crear una implementación de flujo en producción. Puede establecer valores predeterminados para los parámetros, así como marcarlos como confidenciales, lo que garantiza que nadie pueda ver el valor que se estableció.

Figura 4: Gestión central de parámetros de caudal

Designer admite la creación de parámetros sobre la marcha al configurar componentes, así como la función de autocompletar presionando CTRL+ESPACIO al proporcionar un valor de configuración. Como resultado, la gestión de parámetros siempre está al alcance de su mano, justo donde la necesita, sin necesidad de cambiar de vista para buscarlos.

Figura 5: Referencias de parámetros en el panel de configuración y autocompletar

Interactividad cuando sea necesario mientras se ahorran costos

Una de las características únicas de NiFi es la capacidad de interactuar con cada componente en un flujo de datos individualmente sin tener que detener todo el flujo. Esto permite a los desarrolladores realizar cambios en su lógica de procesamiento sobre la marcha mientras ejecutan algunos datos de prueba a través de su flujo y validan que sus cambios funcionan según lo previsto. Por ejemplo, si su flujo de datos está leyendo eventos de un tema de Kafka, que desea filtrar y procesar, pero no está seguro del esquema exacto en el que se encuentran los eventos, es posible que desee echar un vistazo a los eventos antes de escribir su condición de filtro. Con NiFi puede configurar su procesador de origen y ejecutarlo independientemente de cualquier otro procesador para recuperar datos. Una vez que haya recuperado los datos, NiFi los almacena en una cola, lo que le permite explorar el contenido y los atributos de metadatos de los eventos. Una vez que sepa cómo se ven sus eventos, puede pasar al siguiente paso en su flujo y definir la condición de filtro y la lógica de procesamiento posterior. Esto facilita a los desarrolladores iterar y validar cada paso de procesamiento, así como incorporar nuevas fuentes de datos con las que no están familiarizados.

Queríamos preservar el proceso de desarrollo rápido e interactivo y mantener bajo el costo de la infraestructura requerida.especialmente durante los momentos en que los desarrolladores no están trabajando en sus flujos. Para satisfacer esta necesidad, hemos introducido un nuevo concepto llamado sesiones de prueba. con el diseñador de flujo de datos.

Cuando un desarrollador crea un nuevo flujo de datos, se lo dirige inmediatamente al diseñador y puede comenzar a crear su flujo sin tener que esperar a que se cree ningún recurso. Pueden arrastrar y soltar procesadores en el lienzo inmediatamente, crear parámetros y servicios y aplicar cambios de configuración.

Figura 6: Los desarrolladores pueden comenzar a crear flujos de datos de inmediato sin necesidad de asignar ningún recurso NiFi; observe los procesadores atenuados que indican que no hay ninguna sesión de prueba activa

Tan pronto como quieran ejecutar un procesador y probar su lógica de flujo, pueden iniciar una sesión de prueba, que aprovisiona los recursos de NiFi sobre la marcha en cuestión de minutos.

Figura 7: Las sesiones de prueba brindan una experiencia interactiva que los desarrolladores de NiFi adoran

Una vez que una sesión de prueba está activa, los desarrolladores pueden iniciar o detener procesadores y servicios individuales y explorar datos en el flujo para validar su diseño de flujo. Cuando ya no se necesita la sesión de prueba, los desarrolladores pueden terminarla, liberando recursos y ahorrando costos. Las sesiones de prueba actúan como cajas de enviornment NiFi bajo demanda para los desarrolladores.

Figura 8: Una vez que se ha iniciado una sesión de prueba, los desarrolladores pueden interactuar con los procesadores y monitorear los datos a medida que su flujo de datos los procesa

Un proceso de implementación simplificado desde el desarrollo hasta la producción

Desarrollar y probar flujos de datos es el primer paso en el ciclo de vida del flujo de datos y debe integrarse bien con la implementación y el monitoreo de flujos de datos en entornos de producción. Con el diseñador disponible en CDF-PC, ahora podemos apoyar a los desarrolladores y administradores de flujo por igual a través de un proceso simplificado.

Figura 9: Los desarrolladores pueden crear nuevos flujos de borrador según sea necesario

Los desarrolladores crean borradores de flujos, constrúyalos y pruébelos con el diseñador antes de que se publiquen en el catálogo central de DataFlow. Una vez que están en el catálogo de DataFlow, los administradores de flujo pueden implementarlos en el proveedor de la nube de su elección (AWS o Azure) y beneficiarse de las características antes mencionadas, como escalado automático, actualizaciones de versión de NiFi con un solo botón, monitoreo centralizado a través de KPI y automatización a través de una poderosa CLI.

Figura 10a: una vez que se ha validado un borrador de flujo mediante una sesión de prueba, los desarrolladores pueden publicarlo en el catálogo de DataFlow para implementaciones de producción

Figura 10b: como parte del paso de publicación, los desarrolladores pueden dejar comentarios y son redirigidos al catálogo desde donde pueden iniciar una implementación

Mirando hacia el futuro y próximos pasos

La vista previa técnica de DataFlow Designer representa un paso importante para cumplir con nuestra visión de un servicio nativo de la nube que las organizaciones pueden usar para todas sus necesidades de distribución de datos y es accesible para cualquier desarrollador, independientemente de su experiencia técnica. Cloudera DataFlow para la nube pública (CDF-PC) ahora cubre todo el ciclo de vida del flujo de datos, desde el desarrollo de nuevos flujos con el Diseñador hasta la prueba y ejecución en producción mediante las implementaciones de DataFlow. o funciones de flujo de datos dependiendo del caso de uso.

Figura 11: Cloudera DataFlow para la nube pública (CDF-PC) permite la distribución common de datos

DataFlow Designer ahora está disponible para los clientes de CDP Public Cloud como una vista previa técnica. Comuníquese con su equipo de cuenta de Cloudera o con el Soporte de Cloudera para solicitar acceso.

Estén atentos para obtener más información a medida que trabajamos para que DataFlow Designer esté disponible para los clientes de CDP Public Cloud y regístrese para nuestro próximo seminario net de DataFlow o consulte la documentación técnica preliminar de DataFlow Designer.

Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

4 claves para contar historias de marca notables

Empresas que cultivan conexiones emocionales con los clientes...

Qué son y cómo usarlos

Preprocesamiento de datos: lo que hace con los...
spot_img

Stay in touch!

Follow our Instagram