Tiene más problemas con la calidad de los datos de los que cree: este es el motivo.


Dilo conmigo: tus datos nunca serán perfectos.

Cualquier equipo que se esfuerce por obtener datos completamente precisos se sentirá muy decepcionado. Prueba de datosla detección de anomalías y la catalogación son pasos importantes, pero la tecnología por sí sola no resolverá su problema de calidad de datos.

Como cualquier sistema entrópico, los datos se rompen. Y como hemos aprendido a crear soluciones para frenar las causas y el impacto posterior de los problemas de datos, sucede con más frecuencia de lo que piensa.

De hecho, aunque la mayoría de los equipos de datos saben que tienen problemas con la calidad de los datos, subestiman enormemente cuántos ocurren mensualmente, semanalmente e incluso diariamente.

el monte carlo observabilidad de datos La plataforma monitorea automáticamente los 5 pilares de la salud de los datos (frescura, volumen, distribución, esquema y linaje de datos) de extremo a extremo. Los datos de nuestros productos de trabajar con muchos equipos de datos en todas las industrias, tamaños de empresas y pilas de tecnología muestran que la cantidad de incidentes de datos anuales que experimentará la organización promedio es aproximadamente un incidente por cada 15 tablas.

Entonces, incluso con pruebas sólidas y otros enfoques, ¿por qué tantos problemas de calidad de datos pasan desapercibidos, solo para que los interesados ​​salgan a la superficie horas, días o incluso semanas después? ¿Cómo se llegó a este punto y qué se puede hacer?

En esta publicación de weblog, analizaré 8 razones por las que se ocultan los problemas de calidad de los datos (o la “mayoría silenciosa” del tiempo de inactividad de los datos) y las prácticas recomendadas para mejorar la detección y el seguimiento.

Problemas de calidad ocultos a easy vista

La actualización de los datos es un ejemplo de un problema de calidad oculto a simple vista.  Foto de Kieran Wood en Unsplash

Foto: Kieran Wooden en Unsplash

Muchas razones (incluida la mayoría en este artículo) por las que las organizaciones subestiman la prevalencia de los problemas de calidad de los datos implican factores que oscurecen su visibilidad o percepción. Pero también hay problemas de calidad de los datos que se pavonean audazmente a plena vista sin que nadie se entere.

Por ejemplo, los problemas de salud del campo se ven todos los días, pero se encuentran entre los problemas de calidad de datos más difíciles de detectar e identificar.

Puede ser engañosamente fácil probar el estado del campo, y existen herramientas de código abierto y de transformación que pueden ayudar. Si un campo nunca puede ser nulo, eso es bastante easy.

Sin embargo, definir umbrales es realmente un desafío. La razón es que los umbrales en el medio del rango a menudo son diferentes a los bordes. Por ejemplo, pasar de 40% nulo a 50% nulo probablemente esté bien. Sin embargo, pasar de 0 % nulo a 0,5 % nulo podría indicar una falla catastrófica.

Otro problema oculto a easy vista sobre la calidad de los datos es la actualización (o la puntualidad, como se describe en el seis dimensiones de la calidad de los datos). Sus consumidores de datos tienen plazos. Están entregando informes o ejecutando una operación dependiente de datos en un momento determinado.

En cada tubería, cuando una mesa se retrasa, hay una secuencia de procesos que pueden agravar el problema. Las partes interesadas de su negocio pueden estar aprovechando datos desactualizados sin darse cuenta. Otra posibilidad es que simplemente no estén ejecutando lo que se debe hacer porque es difícil diferenciar cuando realmente no se han generado registros o cuando algo se rompe aguas arriba.

Si se pregunta si los datos se ejecutan una hora tarde es algo que debería considerarse un problema de calidad de los datos, entonces podría ser el momento de comenzar a considerar el desarrollo SLA de datos porque la única manera de saber es hablar con sus partes interesadas.

Deriva de datos

¿Los datos aumentaron gradualmente debido a eventos subyacentes o debido a la deriva de datos y un problema de calidad de datos? Foto por Creadores de campañas en Unsplash¿Los datos aumentaron gradualmente debido a eventos subyacentes o debido a la deriva de datos y un problema de calidad de datos?  Foto de Campaign Creators en Unsplash

La deriva de datos es cuando los datos cambian de manera gradual y constante en una dirección debido a un problema de calidad de los datos en lugar de una tendencia subyacente actual. Este avance insidioso de datos incorrectos plantea problemas tremendos para cualquiera que ejecute informes básicos de calidad de datos o pruebas de anomalías porque esos procesos están diseñados para detectar grandes cambios en los datos.

¿Y cómo puede esperar que un analista de datos aguas abajo detecte un problema de calidad de los datos cuando todo lo que ven es un número ligeramente superior o inferior en cada informe?

La deriva de datos también es especialmente desafiante porque los analistas de datos posteriores pueden ver que un número subió o bajó ligeramente, pero no será lo suficientemente flagrante como para que lo cuestionen.

Las expectativas se desvían

Existe un viejo mito de que puedes hervir una rana y no saltará de la olla mientras aumentes gradualmente la temperatura del agua. recetas de okra aparte, lo mismo puede ser cierto con los equipos de datos.

Siempre que ha habido tablerosse han roto tableros e ingenieros de datos tratando de solucionarlos.

Ha sido un procedimiento operativo estándar durante tanto tiempo que es posible que muchas organizaciones no entiendan cuánto valor puede agregar un ingeniero de datos a una organización si no estuvieran constantemente combatiendo los problemas de calidad de los datos.

Para los líderes de datos que han dado un paso atrás para evaluar cómo su equipo está empleando su tiempo, los resultados han sido sorprendentes.

Hablamos con más de 150 líderes de datos antes de lanzar la empresa. Descubrimos que el equipo promedio dedicaba más del 30 % de su tiempo a resolver problemas de calidad de datos.

En la antigua empresa de nuestros desarrolladores de productos, 4 de los 6 OKR anuales se centraron en tratar o mejorar la confiabilidad de los datos de alguna manera.

Deriva de la propiedadSi no tiene visibilidad de todos sus activos de datos, no tiene visibilidad de todos sus problemas de calidad de datos.  Foto de krakenimages en Unsplash

Foto: Krakenimages en Unsplash

Un almacén o lago de datos es un componente absolutamente essential de la pila de datos moderna. Sin embargo, si bien sirve como fuente de verdad, también puede sufrir lo que llamamos “la tragedia de los comunes”.

Un almacén puede convertirse en un depósito de chatarra con relativa rapidez cuando todo su equipo de datos tiene acceso al almacén, pero no existen controles estándar o una buena higiene de los datos. Sobre el papel, parece bastante fácil asegurarse de que cada activo de datos tenga un propietario, pero la realidad no siempre está a la altura.

Nunca vería un microservicio con el nombre de una persona en Ingeniería de software programpero es una práctica muy, muy común que cada ingeniero tenga su propio esquema en el almacén.

El desafío es que todos los equipos tendrán rotación pure. La gente viene y se va. Cuando no existe un linaje fuerte u otros procesos para comprender cómo impactan los diferentes conjuntos de datos tableros u otros activos aguas abajo, pierde visibilidad de posibles problemas o incidentes de calidad de datos.

Etiquetar tablas que están cubiertas por SLA de datos como parte de un proceso de certificación de datos es una excelente solución para evitar el mensaje “¿estás usando esa tabla?” problema.

Falta de visibilidad en el triaje de incidentes

Hablando de problemas de visibilidad, la falta de visibilidad en el proceso de clasificación de incidentes es una de las principales razones que he visto por las que los líderes de datos no solo subestiman su número de problemas de calidad de datos.

Los ingenieros de datos no quieren gritar a los cuatro vientos cuando hay tuberías de datos rotas, datos inexactos o datos inconsistentes. A menos que exista una sólida cultura y un proceso de clasificación de incidentes de datos, y ocurra en un lugar con un chat persistente como PagerDuty, microsoft Los problemas de calidad de los datos de identificación y mitigación de Groups o Slack ocurren detrás de escena en el correo electrónico.

Falta de KPI y SLA para problemas de calidad de datosSeguimiento de SLA y SLI de problemas de calidad de datos en Red Ventures.  Imagen cortesía de Brandon Beidel.

Imagen: cortesía de Brandon Beidel

Irónicamente, una de las razones por las que los equipos de datos pueden no comprender la cantidad complete de problemas de calidad de datos que ocurren es… la falta de datos.

Es por eso que más equipos de datos han comenzado a establecer SLA de datos o Servicio acuerdos de nivel entre el equipo de datos y la empresa que especifican el nivel de rendimiento que pueden esperar de los sistemas de datos. Después de todo, solo puedes mejorar lo que mides.

Científico de datos sénior Brandon Beidel hizo exactamente eso para Empresas Rojas. Como dijo Brandon:

“La siguiente capa es medir el rendimiento. ¿Qué tan bien están funcionando los sistemas? Si hay toneladas de problemas, es posible que no estemos construyendo nuestro sistema de manera efectiva. O bien, podría decirnos dónde optimizar nuestro tiempo y recursos. Tal vez 6 de nuestros 7 almacenes funcionan sin problemas, así que echemos un vistazo más de cerca al que no lo está haciendo…

Con estos SLA de datos implementados, creé un tablero por negocio y por almacén para comprender qué porcentaje de SLA se cumplía a diario”.

La eliminación de los puntos de management humanos.

Procesos como el ETL inverso están sacando del circuito a los inspectores de calidad de datos humanos.

Procesos como inverso ETL están sacando del circuito a los inspectores de calidad de datos humanos

Durante mucho tiempo (quizás demasiado), los analistas de datos y las partes interesadas del negocio han sido la pink de seguridad para la confiabilidad de los datos de una organización.

Si se enviaron datos incorrectos a un tablero, con suerte alguien en los datos analítica el equipo notaría que “se ve divertido”. Las pilas de datos modernas están avanzando hasta el punto en que se eliminan más humanos del ciclo.

Por ejemplo, muchas organizaciones están comenzando a implementar ETL inversa canalizaciones que extraen datos del almacén de datos directamente a un sistema operativo (como Marketo o Salesforce). O tal vez los datos se estén utilizando para informar un modelo de aprendizaje automático.

Estos procesos hacen que los datos sean mucho más procesables y valiosos, pero también pueden dificultar que los equipos de datos detecten problemas de calidad de los datos. Los procesos automatizados pueden beneficiarse de la observación y el monitoreo de datos automatizados.

Escala de cobertura para problemas de calidad de datos

La escala de cobertura de los problemas de calidad de los datos es mayor de lo que piensa.  Foto de Fernando @cferdophotography en Unsplash.

Foto: Fernande @cferdophotography en Unsplash

La escala de cobertura es constantemente el principal issue de impacto para las organizaciones que ven soluciones de observabilidad de datos de extremo a extremo en acción por primera vez. Los monitores impulsados ​​por el descubrimiento automatizado y el aprendizaje automático son súper poderosos.

Uno de los estribillos más comunes que escuchamos relacionado con la calidad de los datos es: “No podría haber escrito una prueba para todo eso”. Y es verdad. Los ecosistemas de datos simplemente están creciendo demasiado rápido y hay demasiados incógnitas desconocidas para escribir pruebas manualmente para cubrir todo.

Lo que suele suceder es que los equipos de datos escriben pruebas para las cosas que han fallado en el pasado. Pero para que eso funcione, necesitaría que todo se haya roto al menos una vez y que no se hayan agregado nuevos activos de datos en el tiempo intermedio.

Los procesos manuales no se pueden escalar y el resultado es que los problemas comunes de calidad de los datos se pasan por alto y integridad de los datos paga el precio.

Cómo solucionar problemas de calidad de datos con la observabilidad de datos

En lugar de preguntarse cómo mitigar manualmente los problemas de calidad de los datos, puede que sea el momento de adoptar un enfoque más automatizado y escalado.

Las soluciones de observabilidad de datos se conectan a su pila existente sin tener que modificar canalizaciones o escribir código nuevo.

Con el monitoreo y las alertas proactivos, el tiempo de detección de problemas de datos se scale back drásticamente. Los problemas que un equipo puede tardar horas, días o incluso semanas (!) en detectar se detectan y envían a los equipos en Slack (u otra herramienta de comunicación) en cuestión de minutos.

Acortar el tiempo de detección también acorta naturalmente el tiempo de resolución, ya que es un salto cognitivo más rápido para comprender qué ha cambiado en el entorno.

La observabilidad de datos también acorta el tiempo de resolución con un linaje de extremo a extremo, que monitorea los activos de datos y las canalizaciones a lo largo de todo el ciclo de vida de los datos. Esto señala dónde se ha producido la rotura y acelera en gran medida Análisis de raíz de la causa.

Si todavía está indeciso, le recomiendo encarecidamente que continúe desarrollando sus mejores prácticas y métricas de calidad de datos. Realice un seguimiento de la cantidad de incidentes de datos, el tiempo de detección y el tiempo de resolución. Luego venga a hablar con nosotros y vea si realmente está capturando el alcance complete de sus problemas de calidad de datos.

El cargo Tiene más problemas con la calidad de los datos de los que cree: este es el motivo. apareció por primera vez en floq de datos.

Related Articles

Tiene más problemas con la calidad de los datos de los que cree: este es el motivo.

Dilo conmigo: tus datos nunca serán perfectos. Cualquier equipo que se...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram