Mercado laboral Intel en SkyHive usando Rockset, Databricks


cielocolmena es una plataforma de actualización de habilidades de extremo a extremo que automatiza la evaluación de habilidades, identifica las necesidades futuras de talento y llena las brechas de habilidades a través de recomendaciones de aprendizaje específicas y oportunidades laborales. Trabajamos con líderes en el espacio, incluidos Accenture y Workday, y Gartner nos ha reconocido como un excelente proveedor en gestión de capital humano.

Ya hemos creado una base de datos de inteligencia del mercado laboral que almacena:

  • Perfiles de 800 millones de trabajadores (anonimizados) y 40 millones de empresas
  • 1600 millones de descripciones de puestos de 150 países
  • Se requieren 3 billones de combinaciones de habilidades únicas para los trabajos actuales y futuros

Nuestra base de datos ingiere 16 TB de datos todos los días, desde ofertas de trabajo extraídas por nuestros rastreadores net hasta fuentes de transmisión de datos de pago. Y hemos realizado muchos análisis complejos y aprendizaje automático para obtener información sobre las tendencias laborales globales de hoy y de mañana.

Gracias a nuestra tecnología de vanguardia, el buen boca a boca y socios como Accenture, estamos creciendo rápidamente, agregando de 2 a 4 clientes corporativos todos los días.

Impulsado por datos y análisis

Al igual que Uber, Airbnb, Netflix y otros, estamos revolucionando una industria (en este caso, la industria world de recursos humanos/HCM) con servicios basados ​​en datos que incluyen:

  • Pasaporte de habilidades SkyHive – un servicio basado en la net que educa a los trabajadores sobre las habilidades laborales que necesitan para desarrollar sus carreras y recursos sobre cómo obtenerlas.
  • Empresa SkyHive – un tablero pagado (abajo) para que los ejecutivos y RH analicen y profundicen en datos sobre a) las habilidades laborales agregadas de sus empleados, b) qué habilidades necesitan las empresas para tener éxito en el futuro; yc) las brechas de habilidades.

Tablero de SkyHive Enterprise

Tablero de SkyHive Enterprise
  • Plataforma como servicio a través de API – un servicio pago que permite a las empresas aprovechar conocimientos más profundos, como comparaciones con competidores y recomendaciones de reclutamiento para llenar los vacíos de habilidades.

Plataforma SkyHive

Plataforma SkyHive

Desafíos con MongoDB para consultas analíticas

16 TB de datos de texto sin procesar de nuestros rastreadores net y otras fuentes de datos se descargan diariamente en nuestro Lago de datos S3. Esos datos se procesaron y luego se cargaron en nuestra base de datos de análisis y servicio, MongoDB.


skyhive-legacy

El rendimiento de las consultas de MongoDB period demasiado lento para admitir análisis complejos que involucraban datos de trabajos, currículos, cursos y diferentes áreas geográficas, especialmente cuando los patrones de consulta no se definían con anticipación. Esto hizo que las consultas multidimensionales y las uniones fueran lentas y costosas, lo que hacía imposible proporcionar el rendimiento interactivo que requerían nuestros usuarios.

Por ejemplo, un gran cliente farmacéutico me preguntó si sería posible encontrar a todos los científicos de datos del mundo con experiencia en ensayos clínicos y más de 3 años de experiencia farmacéutica. Habría sido una operación increíblemente costosa, pero, por supuesto, el cliente buscaba resultados inmediatos.

Cuando el cliente preguntó si podíamos expandir la búsqueda a países de habla no inglesa, tuve que explicar que estaba más allá de las capacidades actuales del producto, ya que teníamos problemas para normalizar los datos en diferentes idiomas con MongoDB.

También hubo limitaciones en los tamaños de carga útil en MongoDB, así como otras peculiaridades extrañas codificadas. Por ejemplo, no podríamos consultar a Gran Bretaña como país.

En basic, tuvimos desafíos importantes con la latencia de las consultas y la introducción de nuestros datos en MongoDB, y sabíamos que necesitábamos pasar a otra cosa.

Pila de datos en tiempo actual con Databricks y Rockset

Necesitábamos una capa de almacenamiento capaz de procesar ML a gran escala para terabytes de datos nuevos por día. Comparamos Snowflake y Databricks y elegimos este último debido a la compatibilidad de Databrick con más opciones de herramientas y soporte para formatos de datos abiertos. Usando Databricks, hemos implementado (a continuación) una arquitectura de lago, almacenando y procesando nuestros datos a través de tres progresivos lago delta etapas Los datos rastreados y otros datos sin procesar llegan a nuestra capa Bronce y, posteriormente, pasan por canalizaciones Spark ETL y ML que refinan y enriquecen los datos para la capa Plata. Luego, creamos agregaciones de granularidad gruesa en múltiples dimensiones, como la ubicación geográfica, la función del trabajo y el tiempo, que se almacenan en la capa Gold.


skyhive-lmi-arquitectura

Tenemos acuerdos de nivel de servicio (SLA) sobre latencia de consulta en cientos de milisegundos, incluso cuando los usuarios realizan consultas complejas y multifacéticas. Spark no se creó para eso: estas consultas se tratan como trabajos de datos que tardarían decenas de segundos. Necesitábamos un motor de análisis en tiempo actual, uno que creara un superíndice de nuestros datos para ofrecer análisis multidimensionales en un santiamén.

Nosotros elegimos conjunto de cohetes para ser nuestra nueva base de datos de servicio orientada al usuario. Rockset se sincroniza continuamente con los datos de la capa Gold y crea instantáneamente un índice de esos datos. Tomando las agregaciones de grano grueso en la capa Gold, Rockset consulta y se une a través de múltiples dimensiones y realiza las agregaciones de grano más fino necesarias para atender las consultas de los usuarios. Eso nos permite servir: 1) predefinidos Consulta Lambdas enviar feeds de datos regulares a los clientes; 2) búsquedas advert hoc de texto libre como “¿Cuáles son todos los trabajos remotos en los Estados Unidos?”

Análisis de subsegundos e iteraciones más rápidas

Después de varios meses de desarrollo y pruebas, cambiamos nuestra base de datos de inteligencia del mercado laboral de MongoDB a Rockset y Databricks. Con Databricks, hemos mejorado nuestra capacidad para manejar grandes conjuntos de datos, así como para ejecutar de manera eficiente nuestros modelos ML y otros procesamientos que no son sensibles al tiempo. Mientras tanto, Rockset nos permite respaldar consultas complejas en datos a gran escala y devolver respuestas a los usuarios en milisegundos con un costo informático mínimo.

Por ejemplo, nuestros clientes pueden buscar las 20 mejores habilidades en cualquier país del mundo y obtener resultados casi en tiempo actual. También podemos admitir un volumen mucho mayor de consultas de los clientes, ya que Rockset solo puede manejar millones de consultas por día, independientemente de la complejidad de la consulta, la cantidad de consultas simultáneas o aumentos repentinos en otras partes del sistema (como de datos entrantes en ráfagas). alimenta).

Ahora estamos alcanzando fácilmente todos los SLA de nuestros clientes, incluidas nuestras garantías de tiempo de consulta de menos de 300 milisegundos. Podemos brindar las respuestas en tiempo actual que nuestros clientes necesitan y que nuestros competidores no pueden igualar. Y con la compatibilidad con la API de SQL a REST de Rockset, es fácil presentar los resultados de las consultas a las aplicaciones.

Rockset también acelera el tiempo de desarrollo, impulsando tanto nuestras operaciones internas como las ventas externas. Anteriormente, nos llevó de tres a nueve meses crear una prueba de concepto para los clientes. Con las funciones de Rockset, como SQL-to-REST-using-Question Lambdas, ahora podemos implementar paneles personalizados para el cliente potencial horas después de una demostración de ventas.

A esto lo llamamos “día cero del producto”. Ya no tenemos que venderles a nuestros prospectos, solo les pedimos que vayan y nos prueben. Descubrirán que pueden interactuar con nuestros datos sin demoras perceptibles. La entrega en la nube sin servidor y de bajas operaciones de Rockset también facilita a nuestros desarrolladores la implementación de nuevos servicios para nuevos usuarios y clientes potenciales.


skyhive-futuro

Estamos planeando optimizar aún más nuestra arquitectura de datos (arriba) mientras expandimos nuestro uso de Rockset en un par de otras áreas:

  • consultas geoespaciales, para que los usuarios puedan buscar acercando y alejando un mapa;
  • sirviendo datos a nuestros modelos ML.

Es possible que esos proyectos se lleven a cabo durante el próximo año. Con Databricks y Rockset, ya hemos transformado y construido una hermosa pila. Pero todavía hay mucho más espacio para crecer.



Related Articles

Posit AI Weblog: Presentación del paquete de texto

El análisis del lenguaje basado en IA ha pasado recientemente...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

Posit AI Weblog: Presentación del paquete de texto

El análisis del lenguaje basado en IA ha...

¿Qué minorista estadounidense ha realizado la mayor cantidad de entregas con drones?

¿Qué minorista estadounidense ha realizado la mayor cantidad...

La impresión 3D a nanoescala se está acercando a la realidad

La impresión 3D a nanoescala es la capacidad...
spot_img

Stay in touch!

Follow our Instagram