Desde que nosotros Anunciado la disponibilidad common de Apache Iceberg en Cloudera Knowledge Platform (CDP), los clientes de Cloudera, como Teranet, han construido lagos abiertos para preparar sus plataformas de datos para el futuro para todas sus cargas de trabajo analíticas. Los socios de Cloudera también se benefician de Apache Iceberg en CDP. Por ejemplo, Modak Nabu está ayudando a sus clientes empresariales a acelerar la ingesta, la conservación y el consumo de datos a escala de petabytes. Hoy, estamos encantados de compartir algunos avances nuevos en la integración de Cloudera de Apache Iceberg en CDP para ayudar a acelerar su implementación de lago abierto de datos abiertos en varias nubes.
Implementación de varias nubes con la nube pública de CDP
La capacidad de múltiples nubes ahora está disponible para Apache Iceberg en CDP. Según un reciente Gartner Encuesta de usuarios de nube pública, el 81% de las organizaciones están trabajando con dos o más proveedores de nube pública. Con CDP, los clientes pueden implementar almacenamiento, cómputo y acceso, todo con la libertad que ofrece la nube, evitando el bloqueo de proveedores y aprovechando las mejores soluciones de su clase. Puede aprovechar Kubernetes (K8s) y las tecnologías de contenedorización para implementar de manera consistente sus aplicaciones en múltiples nubes, incluidas AWS, Azure y Google Cloud, con portabilidad para escribir una vez, ejecutar en cualquier lugar y pasar de una nube a otra con facilidad. Con una interfaz común en CDP que funciona en diferentes proveedores de servicios en la nube, puede desglosar los silos de datos al tiempo que garantiza una seguridad, un management y una trazabilidad consistentes, todo mientras mueve sin problemas su Apache Iceberg–cargas de trabajo basadas en entornos de implementación sin fricciones.
Capacidades avanzadas
Las nuevas capacidades de Apache Iceberg en CDP le permiten acelerar las implementaciones de lagos abiertos de varias nubes.
- Análisis multifunción mejorado
Además de los servicios de datos clave en CDP, como Cloudera Knowledge Warehousing (CDW), Ingeniería de datos de Cloudera (CDE) y aprendizaje automático de Cloudera (LMC) ya en uso por nuestros clientes, integramos Cloudera Knowledge Circulation (FCD) y Cloudera Stream Processing (CSP) con el formato de tabla Apache Iceberg, para que pueda manejar sin problemas la transmisión de datos a escala. Los motores de cómputo en estos servicios de datos CDP pueden acceder y procesar conjuntos de datos en las tablas Iceberg al mismo tiempo, con seguridad y gobernanza compartidas proporcionadas por nuestra exclusiva experiencia de datos compartidos de Cloudera (SDX).
- Migración de tablas increíblemente rápida
Con la migración de tablas en el lugar, puede convertir rápidamente a tablas Iceberg, ya que no es necesario volver a generar archivos de datos. Solo se regenerarán los metadatos. Los metadatos recién generados apuntarán a los archivos de datos de origen, como se ilustra en el siguiente diagrama.
- Calidad de los datos mediante la reversión de la tabla
Cuando surgen problemas de calidad de los datos, puede utilizar la reversión de la tabla para volver a un estado de alta calidad conocido. Puede restaurar rápidamente los datos a un buen estado conocido y tomar medidas correctivas de forma más rápida y sencilla.
- Mantenimiento del rendimiento y la capacidad de gestión con un mantenimiento de tablas mejorado
Mejore el rendimiento y la capacidad de administración common de las tablas Iceberg utilizando las nuevas capacidades de mantenimiento de tablas, como la caducidad de las instantáneas antiguas y la eliminación de sus metadatos, y la compactación para combinar archivos pequeños para un procesamiento de datos más eficiente.
- Soporte de formato de archivo abierto ORC
Además de la compatibilidad con el formato de archivo abierto Parquet, Iceberg en CDP ahora también es appropriate con ORC en la última versión. La compatibilidad con estos formatos de archivo abiertos estándar comunes de la industria ayuda aún más a acelerar la adopción de Iceberg y la implementación de Open Lakehouse.
- Acelere el análisis con soporte de vista materializada
En CDP, los usuarios pueden crear vistas materializadas sobre tablas Iceberg. Las vistas materializadas son una práctica estándar de la industria para que las bases de datos aceleren la ejecución de consultas de análisis en órdenes de magnitud significativos.
- Rendimiento y escalabilidad
Cloudera desarrolló características únicas en CDP para el rendimiento de consultas de Iceberg y la escalabilidad para grandes conjuntos de datos, incluido el almacenamiento en caché de E/S, la poda dinámica de particiones, la vectorización, el orden Z, los índices de páginas de parquet y el almacenamiento en caché de manifiestos.
Disponibilidad common de transacciones ACID con mesas Iceberg
Desde que lanzamos nuestro soporte para iceberg apache en CDP, se han estado desarrollando nuevas versiones en Apache. Apache Iceberg versión 0.14.1 (también conocido como apache iceberg v2) proporciona soporte para operaciones de lenguaje de modificación de datos (DML), como la eliminación y actualización de nivel de fila. Con la disponibilidad common de Iceberg v2 de CDP, los usuarios pueden mantener la coherencia transaccional en las tablas de Iceberg incluso cuando acceden a los mismos datos utilizando varios motores simultáneamente. Con Iceberg v2, puede acceder y procesar datos, todo mientras mantiene la consistencia de lectura y las escrituras simultáneas de múltiples motores/usuarios debido al aislamiento serializable y al management de concurrencia optimista. Además de los comandos DELETE y UPDATE SQL desarrollados para DML, también se ofrece el comando MERGE SQL para aprovechar las operaciones DML de nivel de fila para simplificar las canalizaciones de datos ETL.
Integrado con la plataforma de datos de Cloudera
Las tablas Iceberg compatibles con CDP heredan automáticamente el sistema centralizado y persistente Experiencia de datos compartidos (SDX) (seguridad, metadatos y auditoría) desde su entorno CDP.
Los siguientes controles de seguridad SDX se heredan de su entorno CDP:
CDP se integra con su proveedor de identidad corporativa para mantener una única fuente de verdad para todas las identidades de los usuarios.
- Autorización de grano fino
Garantiza que solo los usuarios a los que se les hayan otorgado los permisos adecuados puedan acceder a las tablas de Iceberg y a los datos almacenados en esas tablas.
Apache Ranger proporciona un marco centralizado para recopilar el historial de auditoría de acceso y los datos de informes, incluido el filtrado de varios parámetros.
Apache Atlas proporciona servicios para recopilar metadatos cuando el servicio realiza determinadas operaciones. Puede usar Atlas para buscar, organizar y administrar diferentes aspectos de los datos sobre sus tablas Iceberg y cómo se relacionan entre sí. Esto permite una variedad de casos de uso de administración de datos y cumplimiento normativo.
Resumen
La integración de Cloudera de Apache Iceberg en CDP continúa beneficiándose de nuevas mejoras a medida que nos unimos a la comunidad para innovar en este formato de tabla moderno. Las nuevas capacidades, como la implementación de múltiples nubes, el cumplimiento de ACID y el análisis multifunción mejorado, aceleran la implementación de la casa del lago de datos abiertos de múltiples nubes para cumplir con los requisitos en constante evolución para el almacenamiento de datos moderno, lago de datos, AI/ML, ciencia de datos y más.
Aprender más:
- reproducir nuestro seminario internet Unificando sus datos: IA y análisis en One Lakehouse, donde discutimos los beneficios de Iceberg y open knowledge lakehouse.
- Lea por qué el el futuro de los lagos de datos está abierto.
- reproducir nuestro reunirse Apache Iceberg: mirando por debajo de la línea de flotación.
Pruebe Cloudera DataFlow (CDF), Cloudera Knowledge Warehouse (CDW), Cloudera Knowledge Engineering (CDE) y Cloudera Machine Studying (CML) registrándose en a prueba de 60 díaso prueba de manejo CDP. yoSi está interesado en conversar sobre Apache Iceberg en CDP, informe a su equipo de cuenta o contacto nosotros directamente. Como siempre, proporcione sus comentarios en la sección de comentarios a continuación.
Otros colaboradores de este artículo: Manish Maheshwari, Pedro Ableda, Navita Sood , Imran Rashid, priyank patel, michael kos, Ashish Shah, David Dichman, jose niemiec