Uso de Delta Sharing para acelerar los conocimientos con los datos del mercado de activos digitales de Nasdaq


Esta es una publicación colaborativa de Databricks y Nasdaq. Agradecemos a Mitch Tessier, Product Advertising and marketing Supervisor de Nasdaq, por sus contribuciones.

La exploración de datos es el proceso de investigar un nuevo conjunto de datos haciendo preguntas básicas para obtener información para un análisis posterior. Ofrecer un acceso fluido a una gran cantidad de datos de activos digitales (redes de cadena de bloques, criptomercados y finanzas descentralizadas) es esencial para respaldar las estrategias comerciales y de riesgo. Con Databricks Lakehouse para servicios financieros y Datos del mercado de activos digitales de Nasdaq Knowledge Hyperlinklas instituciones financieras pueden:

  • Acceda a conjuntos de datos para transacciones criptográficas, cotizaciones y libros de pedidos
  • Reduzca el ETL de grandes conjuntos de datos de meses a minutos
  • Analice y discover los diferentes pares en los mercados globales
  • Put together datos de activos digitales para análisis e IA a escala

Nasdaq Knowledge Hyperlink Digital Belongings es parte del conjunto de productos de inteligencia de inversión de Nasdaq, diseñado para proporcionar un valor significativo a los clientes en la toma de decisiones informadas. Como creador del primer mercado bursátil electrónico del mundo, la tecnología Nasdaq impulsa más de 70 mercados en 50 países y una de cada diez transacciones de valores del mundo. Construido en colaboración con ámbardatoslos datos de mercado de activos digitales de Nasdaq son un conjunto de productos de datos que cubren transacciones, datos de valor máximo y profundidad de libros para más de 2000 pares de criptomonedas en 15 intercambios.

Grandes conjuntos de datos y uso compartido delta

A medida que las empresas buscan nuevas fuentes de ingresos y gestionan mejor el riesgo dentro de la organización, el intercambio de datos se ha convertido en una vía comprobada para monetizar los datos y colaborar con proveedores de datos externos para mejorar las estrategias de gestión del riesgo. Si bien existen plataformas de datos que brindan la capacidad de compartir datos, a menudo existen varias deficiencias, como el bloqueo del proveedor y el alto costo de la transferencia de datos, entre otros.

Para resolver estos problemas, Databricks desarrolló Compartir delta que es un protocolo de código abierto que permite un fácil acceso y procesamiento de datos compartidos de forma segura desde su casa del lago a cualquier plataforma informática. Los datos no se duplican, sino que los administra Delta Sharing Server, que genera direcciones URL de corta duración para el acceso. Estas direcciones URL permiten que varios clientes Delta Sharing independientes del proveedor, como Spark, Pandas, PowerBI y Tableau, lean y procesen los datos directamente. Delta Sharing permite compartir y procesar de manera eficiente conjuntos de datos de todos los tamaños, y es un requisito elementary para trabajar con grandes conjuntos de datos, como los datos del mercado de activos digitales.

Exploración de datos

Hoy, estamos analizando dos de las tablas disponibles en el conjunto de datos de mercado de activos digitales de Nasdaq: valor máximo del libro (BBO) y profundidad del libro (actualizaciones de OB), que son 3 terabytes y más de 30 terabytes respectivamente. Antes de sumergirse en esta gran cantidad de datos, es importante tener una comprensión básica de su estructura y esquema. Esto revelará que los datos siguen los campos estándar para datos de comercio y cotización (TAQ).

Exploración de datos

Transformaciones y limpieza de datos

Después de revisar rápidamente las columnas de la tabla, puede comenzar la exploración de datos básicos. Una forma eficiente de explorar los datos dentro del entorno de Databricks es usar un cuaderno. Dentro de los dos conjuntos de datos, las columnas más importantes para segmentar y agrupar datos son las columnas “par”, “intercambio” y “exchange_timestamp”. Estas columnas permiten examinar el par de criptomonedas, el intercambio en el que se incluye la cotización o la operación y la marca de tiempo del intercambio en el que se marcaron los datos de TAQ.

Es importante tener en cuenta que la columna de marca de tiempo debe transformarse para que sea legible por humanos, ya que es un valor largo en tiempo UNIX. Con Spark, es fácil convertir la columna y agregar nuevas columnas para que los datos sean más legibles, así como dividir diferentes columnas por fecha, horas, minutos y segundos. Esto permite una exploración, comparación y creación de estadísticas y vistas de resumen más detalladas.


df = df 
    .withColumn("date",to_date("new_exchange_timestamp")) 
    .withColumn("hour", hour(col("new_exchange_timestamp"))) 
    .withColumn("minute", minute(col("new_exchange_timestamp"))) 
    .withColumn("second", second(col("new_exchange_timestamp")))

Las estadísticas y los gráficos de resumen básicos, como la comparación de las cantidades del lado de la compra frente a las del lado de la venta, pueden brindar información sobre las cantidades iniciales y las cantidades de las transacciones del lado de la compra completadas y los participantes del mercado. También se pueden crear gráficos para explorar visualmente los datos y se pueden usar gráficos adicionales para mostrar diferentes vistas de los datos, incluso mostrando histogramas por criptopar y los participantes del mercado a través de precios y tamaños de operaciones. Además, abrir los datos comerciales e identificar el primer conjunto de operaciones después del cambio de fecha para la marca de tiempo del intercambio puede brindar una vista de la forma en que un par opera después de la apertura.

La creación de una vista borrosa de apertura, máximo, mínimo y cierre (OHLC) de la barra de minutos en las operaciones comienza a producir una vista basada en el tiempo de los movimientos de precios. Luego, los datos se pueden colocar en Plotly para una inspección visible directa de cómo se mueve el precio durante el día de negociación. También hay herramientas como mplfinanzas que se puede utilizar para dar a Yahoo! Parcelas estilo finanzas.

Gráfico de velas que muestra los movimientos de precios de los activos a lo largo del día

Análisis de profundidad de mercado

Para comprender realmente cómo se negocia un instrumento de criptomoneda, es importante considerar no solo las operaciones en sí, sino también la liquidez y el momento de esas operaciones. Los cuadernos de profundidad brindan una forma de visualizar los momentos en que se realizan la mayoría de las cotizaciones, brindando información sobre las horas pico del día cuando existe el mayor potencial para las transacciones. Al profundizar en fechas u horas específicas, es posible ver información específica sobre el precio y la cantidad, y cómo se negocia el instrumento en common. Usando herramientas como Pandas, esta información se puede visualizar rápida y fácilmente.

Fundamentos del mercado, medias móviles

Cuando se trabaja con datos de collection temporales, es importante limpiar y formatear los datos; las marcas de tiempo necesitan varias funciones y operaciones para ser utilizadas correctamente. Esto a menudo implica convertir cadenas de datos en campos más utilizables, como fechas específicas, zonas horarias u horas. Una vez que se preparan los datos, es posible calcular patrones y tendencias simples, como usar patrones de velas japonesas y promedios móviles para los movimientos de precios, “difuminar” las transacciones discretas en el mercado y tener una visión más holística del precio y la profundidad. Esta técnica de observar las operaciones individuales discretas y combinar las operaciones en “barras o bandas” y otros indicadores técnicos permite identificar tendencias adicionales mediante el análisis numérico.

Además, es valioso observar el porcentaje de propagación al analizar el comercio de criptomonedas. El porcentaje de margen puede dar una concept de la oferta y la demanda de un par en explicit y el costo de entrar y salir de una posición en el mercado. Al visualizar el porcentaje de distribución en diferentes intercambios utilizando herramientas como Pandas, es posible comprender cómo varían los valores entre los intercambios.

Porcentajes de diferencial de oferta y demanda en los intercambios

Análisis de propagación

Al crear un nuevo cuaderno de Databricks, el paso inicial es recuperar las cotizaciones de mejor oferta y mejor oferta en la parte superior del libro para cada intercambio. Al analizar estas cotizaciones, podemos determinar la mejor oferta para cada par de criptomonedas, incluido el precio, el tamaño y el intercambio. Además, podemos buscar oportunidades de arbitraje al identificar mercados cruzados, instancias en las que un intercambio tiene una oferta mayor que una demanda.

Para analizar los datos, es necesario examinar la ndlda_bbo tabla para las mejores cotizaciones de oferta y demanda y la ndlda_trades tabla para intercambios históricos de criptografía. Al explorar los datos, podemos obtener información sobre el tamaño y la forma del conjunto de datos. Por ejemplo, al examinar los esquemas de la tabla, podemos determinar la cantidad de intercambios presentes en el conjunto de datos, en este caso, 18. Esto nos da una concept de la cantidad de mercados disponibles para intercambiar criptopares. Para comprender mejor el alcance y el tamaño del conjunto de datos, podemos contar la cantidad de criptopares distintos, 8132, y usar esta información para estimar el aumento de datos necesario para crear una visión completa de los mercados de criptopares. Esto nos ayudará a comprender el tamaño y la estructura common de los mercados.

Podemos escanear las filas individuales y buscar casos en los que el precio de oferta sea mayor que el precio de venta. Esto nos dará una serie de cotizaciones que se pueden usar para validar y probar la calidad de los datos, y también ayudará a descubrir e identificar cualquier problema con los datos que pueda afectar los resultados generales.

A continuación, crearemos una columna que enumere la mejor oferta y los mejores precios de demanda para todos los intercambios, y luego, para cada par de criptomonedas, identificaremos el intercambio con el precio de oferta más alto y el precio de demanda más bajo en todo el sistema de mercado. Esto nos ayudará a identificar mercados cruzados, brindando información sobre el sistema de mercado y oportunidades potenciales para mejorar los precios.

Finalmente, calcularemos estadísticas resumidas como el número de intercambios con cotizaciones cruzadas, así como la media y la desviación estándar de los diferenciales entre los mejores precios de compra y venta para cada criptopar. Esto nos dará una visión completa de los datos y ayudará a comprender los mecanismos de mercado para la mejora de precios.

Conclusión

Los databricks y los componentes que componen la plataforma permiten una exploración de datos fácil y sencilla para conjuntos de datos masivos con Spark, Delta Lake y Delta Sharing. Los cuadernos de Databricks permiten la exploración de concepts de manera sencilla con visualizaciones no solo con las herramientas nativas, sino con herramientas como Pandas y Plotly. Al aprovechar dichas herramientas, se puede utilizar un tiempo de comercialización más rápido con conjuntos de datos para obtener información y generar nuevas concepts. Finalmente, la combinación de los datos del mercado de activos digitales de Nasdaq con Databricks Lakehouse proporciona la simplicidad, la versatilidad y la visualización poderosa para analizar grandes conjuntos de datos criptográficos.

por favor refiérase a cuadernos de muestra para obtener más información sobre cómo empezar.

Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram