Esta es una publicación colaborativa de Databricks y Census. Agradecemos a Parker Rogers, Knowledge Group Advocate, en Census por sus contribuciones.
En este artículo, explicaremos cómo el uso del ETL inverso (rETL) de Census hace que usted, un profesional de datos, y su lago de datos sean aún más valiosos para su organización. Responderemos a todas sus preguntas, incluyendo:
- ¿Qué es ETL inverso con censo?
- ¿Por qué revertir ETL con Census hace que usted y su lago de datos sean más valiosos?
- ¿Cómo lanza ETL inverso en su lago de datos hoy?
Si ha creado un lago de datos en el que su organización confía y utiliza, ¡felicidades! Este es un logro significativo, y el trabajo más duro para su equipo de datos ya quedó atrás.
Ahora, queremos presentar una solución easy que no requiere mucho tiempo para ayudarlo a hacer que los datos sean aún más valiosos y procesables en su organización. Ya sea científico de datos, analista o ingeniero analítico, la implementación de esta solución puede beneficiarlo.
Se llama ETL inversa con censo, y aquí hay algunas (¡o muchas!) cosas que pueden ayudarlo a lograr:
- La capacidad de brindar información y datos confiables desde Databricks a todas las herramientas utilizadas por sus equipos de ventas, advertising and marketing y operaciones
- La capacidad de crear una imagen consistente para todos en cada herramienta
- La capacidad de llegar a cada uno de sus clientes a cualquier escala en el momento justo.
- La capacidad de cerrar la brecha de datos y la brecha humana entre los equipos de datos y operaciones.
Primero, aprendamos qué es ETL inverso.
¿Qué es ETL inverso con censo?
ETL inversa es el proceso de sincronizar datos de una fuente de verdad (como su lago de datos) a un sistema de acciones (ya sea su CRM, plataforma de publicidad u otra aplicación SaaS). Esto esencialmente voltea el proceso ETL authenticlo que le permite extraer datos de Lakehouse, transformarlos para que funcionen bien con la API de su destino de destino y luego cargarlos en la aplicación de destino deseada.
¿Por qué es necesario invertir este proceso de todos modos?
Si bien ETL tradicional funcionó bien para un volumen limitado de datos, a medida que la industria de datos se ha disparado y la gran cantidad de volumen que manejan las organizaciones ha crecido a la par, los ingenieros de datos que una vez tuvieron un amplio ancho de banda para procesar y responder sus preguntas relacionadas con los datos , ya no lo hagas. Con la falta de manos para procesar sus datos y obtener información valiosa, necesita herramientas y procesos más sofisticados (como rETL) para operacionalice sus análisis.
Ahora, esa es una descripción common de alto nivel, así que exploremos la esencia del “por qué”.
Por qué Reverse ETL with Census hace que usted y su lago de datos sean más valiosos
Reverse ETL tiene casos de uso para cada (sí, cada) de su organización, pero nos centraremos en uno común: Ventas.
Think about que su equipo de ventas quiere saber qué clientes potenciales deben priorizar para los esfuerzos de salida. En su casa del lago, crea una consulta que califica a sus clientes potenciales en función de ciertos criterios, ya sea el tamaño de la empresa/sector, el cargo, las interacciones con su producto/sitio internet de advertising and marketing, and so forth. Aquí, cuanto mayor sea la puntuación de clientes potenciales, mayor será la prioridad para esfuerzos de salida.
En este punto, tiene los datos que necesita, pero dos grandes preguntas le impiden ponerlos en práctica:
¿Cómo se lo entregará a su equipo de ventas?
¿Cómo puede asegurarse de que genere valor?
El enfoque tradicional es enviarlo a una herramienta de BI o a un archivo CSV y esperanza el equipo de ventas lo utiliza. Claro, podrían usarlo, pero lo más possible es que lo olviden. Así es como solía funcionar este proceso.
Pero con ETL inverso, puede enviar los datos directamente desde su lago de datos a las herramientas SaaS en las que vive su equipo de ventas (Outreach, Hubspot, Salesforce, and so forth.), para asegurarse de que los datos siempre sean lo más importante para sus representantes de ventas. ayudándolos a generar valor en cada interacción.
Pero, ¿cómo obtiene Census los datos en sus herramientas SaaS, garantizando la puntualidad y la precisión (mientras mantiene sus datos seguros)? El censo se basa en varios componentes clave: modelos, segmentos y sincronizaciones.
- Modelos son sus datos de Lakehouse limpios y preparados que se enviarán a sus aplicaciones SaaS. Los modelos se pueden componer dentro del generador de segmentos de Census a través de SQL, exponiendo modelos dbt o exponiendo Looker Appears.
- Segmentos no son obligatorios, pero brindan una manera conveniente de segmentar sus datos de advertising and marketing a partir de un solo modelo. Esto le permite alimentar diferentes segmentos a diferentes listas de advertising and marketing desde un solo modelo.
- sincroniza mover los datos de un modelo/segmento al destino. Le permiten asignar sus campos de origen a sus campos de destino y proporcionan programación y orquestación. Puede programar sus sincronizaciones para que se ejecuten en lotes o de forma continua, lo que lleva a sincronizaciones casi en tiempo actual.
Estos componentes básicos están rodeados por tres capas de gobernanza:
- Observabilidad. Le avisa de cualquier problema con sus sincronizaciones mientras crea la sincronización y mientras se ejecutan según un cronograma. Esto se compone de historial de sincronización, inspector de API, registros de sincronización, alertas de sincronización y ejecuciones de prueba de sincronización.
- Controles de acceso. Le permite restringir el acceso a los datos a los miembros correctos del equipo.
- Seguridad de datos. Census adopta un enfoque único para la seguridad de los datos. El censo está diseñado para ejecutarse dentro de la casa del lago. Esta arquitectura de “bajo contacto” utiliza el motor de ejecución de Databricks para realizar operaciones confidenciales, lo que significa que la validación, la transformación y el seguimiento del estado ocurren sin que sus datos toquen los servidores de Census. Esto hace que sus datos sean “seguros por defecto”.
Una vez que esos datos se entregan a su herramienta SaaS, así es como se verían sus amigos de ventas:
Claro, ese es un ejemplo de alto nivel, pero vea cómo YipitData está usando ETL inverso para empoderar a sus equipos de ventas y éxito del cliente.
Cómo YipitData usa ETL inverso
Como muchos otros, YipitData utiliza ETL inverso para sincronizar los datos de los clientes de su lago de datos con Salesforce. Como resultado, sus equipos de Ventas y Éxito del cliente están vendiendo de manera más efectiva y evitando posibles abandonos. Así es como lo hacen:
- Valoración de prospectos: Utilizando los datos del sitio internet de advertising and marketing y productos almacenados en su clúster de Databricks, YipitData identifica a los clientes potenciales que mejor se adaptan y prioriza el tiempo de su equipo de ventas para llegar a estos clientes potenciales.
- Puntuación de abandono: Con los datos de productos de Databricks, YipitData crea varias métricas para identificar las cuentas que probablemente abandonen (por ejemplo, usuarios activos, productos activos, último inicio de sesión, and so forth.). Estos datos ayudan al equipo de éxito del cliente a priorizar las cuentas para evitar la rotación.
- Cliente 360: YipitData sincroniza actividades de contacto relevantes (p. ej., correo electrónico más reciente, reunión más reciente, llamada en frío más reciente) con contactos individuales de Salesforce. Esto crea cohesión entre todas sus actividades de comercialización.
Cómo iniciar ETL inverso en Databricks
Puede iniciar Census rETL hoy. Usando el ejemplo de ventas anterior, así es como.
Paso 1: Conectar Databricks al Censo
Para establecer la conexión, necesitará el nombre de host del servidor, el puerto, la ruta HTTP y el token de acceso para un clúster de Databricks. Elija un clúster de Databricks que ejecute una versión LTS como 7.3, 9.1 o 10.4. Puede encontrar las credenciales requeridas en estos dos documentos:
Después de ingresar su token de acceso, deberá agregar los siguientes parámetros de configuración a su clúster navegando desde Clústeres > (Tu Clúster) > Opciones avanzadas > Chispa – chispear.
Si el CENSO no se ha creado el esquema, créelo ejecutando:
Si necesita ayuda o tiene algún problema al conectarse a Databricks, consulte esta documentación (o solo gritarnos directamente).
Paso 2: Conéctese a una aplicación SaaS de destino
Este ejemplo usa HubSpot como el destino del servicio.
Conectarse a un destino de servicio generalmente solo requiere sus credenciales de inicio de sesión, así que ingréselas como se muestra.
Una vez que esté conectado, puede comenzar la parte divertida: modelar sus datos.
Paso 3: Modelado de sus datos
Cree un modelo con datos de Databricks. En este ejemplo, estamos creando una “puntuación de clientes potenciales” para identificar qué clientes potenciales son la prioridad más alta para los esfuerzos de salida de un equipo de ventas.
Debido a que un modelo es simplemente una consulta SQL, si conoce SQL, puede enviar los datos que desee docenas de herramientas de primera línea utilizadas por su organización. En este ejemplo, utilizamos el siguiente modelo:
WITH rating AS (
SELECT
user_id,
SUM(
CASE
WHEN identify = 'webinar attended' THEN 3
WHEN identify = 'appointment created' THEN 4
WHEN identify = 'appointment shared' THEN 2
WHEN identify = 'content material downloaded' THEN 2
WHEN identify = 'electronic mail opened' THEN 1
ELSE 0
END
) AS lead_score
FROM
"demo".occasions
GROUP BY
user_id
),
webinar_attended AS (
SELECT
user_id,
COUNT(*) AS COUNT
FROM
"demo".occasions
WHERE
identify = 'webinar attended'
GROUP BY
user_id
),
content_downloaded AS (
SELECT
user_id,
COUNT(*) AS COUNT
FROM
"demo".occasions
WHERE
identify = 'content material downloaded'
GROUP BY
user_id
),
appointment_created AS (
SELECT
user_id,
COUNT(*) AS COUNT
FROM
"demo".occasions
WHERE
identify = 'appointment created'
GROUP BY
user_id
)
SELECT
electronic mail,
lead_score,
webinar_attended.rely AS webinar_attended,
content_downloaded.rely AS content_downloaded,
appointment_created.rely AS appointment_created,
first_name,
last_name,
first_name | | ' ' | | last_name AS identify,
company_domain,
position,
web site,
location,
u.user_id,
'subscribed' AS standing
FROM
"demo".customers u
JOIN rating ON rating.user_id = u.user_id
JOIN webinar_attended ON webinar_attended.user_id = u.user_id
JOIN content_downloaded ON content_downloaded.user_id = u.user_id
JOIN appointment_created ON appointment_created.user_id = u.user_id
WHERE
lead_score > 100
LIMIT
100
Paso 4: sincroniza tus datos
Aquí es donde ocurre la magia “ETL inversa”. 🪔En una sincronización, los datos se envían desde un modelo a un destino (es decir, HubSpot). En este caso, enviamos el modelo “Puntuación de cliente potencial” a un campo personalizado de HubSpot llamado “Puntuación de cliente potencial”, lo que da como resultado un cliente potencial personalizado puntuación para cada contacto en tu cuenta de HubSpot.
Paso 6: Cree un programa de sincronización
Además de ejecutar una sincronización, puede programar automáticamente su sincronización. Aquí, estamos ejecutando el Ladrillos de datos a HubSpot sincronizar cada mañana a las 10:00 am. Esto significa que si se cargan nuevos datos en su cuenta de Databricks, Census los incluirá automáticamente en la sincronización todas las mañanas.
Paso 7: Si es necesario, solucione los problemas de sincronización con Dwell API Inspector
Esperamos que no tenga que depurar sus datos, pero si lo hace, ¡lo tenemos cubierto! Si tiene problemas, consulte nuestro inspector de API en vivo para encontrar sus problemas y hacer que sus sincronizaciones funcionen sin problemas.
El “qué”, “por qué” y “cómo” de Databricks + Census rETL
Databricks es el corazón de su estrategia de datos e inteligencia synthetic (¡y con razón!), pero ahora necesita hacerlo accesible a un público aún más amplio. Ahí es donde entra en juego el ETL inverso de Census. Al poner sus datos en sus aplicaciones operativas de primera línea, Lakehouse se puede extender a diferentes usuarios finales en la organización.