
Ha sido un viaje salvaje durante los últimos seis años, ya que ZDNet nos dio la oportunidad de hacer una crónica de cómo, en el mundo de los datos, la vanguardia se ha convertido en la norma. En 2016, Massive Knowledge todavía se consideraba cosa de los primeros en adoptar. El aprendizaje automático se limitó a un puñado relativo de organizaciones International 2000, porque eran las únicas que podían permitirse reclutar equipos del grupo limitado de científicos de datos. La noción de que revisar cientos de terabytes o más de datos estructurados y los datos estructurados de forma variable se convertirían en una rutina period una quimera. Cuando comenzamos nuestra parte de Grande en datosSnowflake, que abrió la puerta al almacén de datos en la nube elástica que también podía manejar JSON, estuvo apenas un par de años después del sigilo.
En un breve artículo, será imposible comprimir todos los aspectos más destacados de los últimos años, pero haremos un valiente intento.
El panorama de la industria: una historia de dos ciudades
Cuando comenzamos nuestro período en ZDNet, ya habíamos estado rastreando el panorama de datos durante más de 20 años. Entonces, en ese momento, period demasiado apropiado que nuestra primera publicación en ZDNet el 6 de julio de 2016, analizó el viaje de lo que se convirtió en una de las historias de mayor éxito de la década. Planteamos la pregunta: “¿Qué debería ser MongoDB cuando crezca?” Sí, hablamos de las pruebas y tribulaciones de MongoDB, persiguiendo lo que el cofundador y el entonces CTO Elliot Horowitz profetizó, que la forma de documento de datos no solo period una forma más pure de representar datos, sino que se convertiría en el recurso predeterminado para los sistemas empresariales.
MongoDB superó los primeros obstáculos de rendimiento con un motor de almacenamiento 2.0 extensible que superó muchos de los impedimentos de la plataforma. Mongo también comenzó a regañadientes a coexistir con funciones como BI Connector que le permitían trabajar con los Tableaus del mundo. Sin embargo, hoy en día, incluso con el veterano de la base de datos relacional marca portero tomando el timón líder en tecnología, todavía están bebiendo el mismo Kool Assist ese documento se está convirtiendo en el estado closing definitivo para las bases de datos empresariales centrales.
Puede que no estemos de acuerdo con Porter, pero el viaje de Mongo reveló un par de temas centrales que impulsaron a las empresas de crecimiento más exitosas. En primer lugar, no tenga miedo de deshacerse de la tecnología 1.0 antes de que su base instalada se consolide, pero intente mantener la compatibilidad con API para facilitar la transición. En segundo lugar, cree una excelente experiencia en la nube. Hoy, MongoDB es una empresa pública que está en camino de superar los mil millones de dólares en ingresos(no valoración), con más de la mitad de su negocio procedente de la nube.
También hemos visto otras startups calientes que no manejan la transición 2.0 tan bien. InfluxDB, una base de datos de collection temporales, period una de las favoritas de los desarrolladores, al igual que Mongo. Pero Inflow Knowledge, la empresa, desperdició el impulso inicial porque llegó a un punto en el que sus ingenieros no podían decir “No”. Al igual que Mongo, también adoptaron una arquitectura de segunda generación. En realidad, abrazaron a varios de ellos. ¿Estás empezando a ver una desconexión aquí? A diferencia de MongoDB, el motor de almacenamiento y los entornos de desarrollo NextGen de InfluxDB no eran compatibles con la base instalada 1.0 y, sorpresa, sorpresa, muchos clientes no se molestaron con la transición. Si bien MongoDB es ahora una empresa pública de mil millones de dólares, Inflow Knowledge apenas ha obtenido $ 120 millones en fondos hasta la fecha, y para una empresa de su tamaño modesto, tiene una cartera de productos. que se volvió demasiado complejo.
Ya no es Massive Knowledge
No debería sorprender que los primeros días de esta columna fueran impulsados por Massive Knowledge, un término que usamos para capitalizar porque requería habilidades y plataformas únicas que no eran muy fáciles de configurar y usar. El énfasis se ha desplazado a los “datos” gracias, no solo al equivalente de la Ley de Moore para redes y almacenamiento, sino, lo que es más importante, por la simplicidad operativa y la elasticidad de la nube. Comience con el volumen: puede analizar conjuntos de datos bastante grandes de varios terabytes en Snowflake. Y en la nube, ahora hay muchos caminos para analizar el resto de Las tres V de grandes datos; Hadoop ya no es el único camino y ahora se considera una plataforma heredada. En la actualidad, Spark, los lagos de datos, las consultas federadas y las consultas advert hoc a los lagos de datos (también conocidos como almacenamiento en la nube) pueden manejar fácilmente todas las V. Pero como dijimos el año pasadoel legado de Hadoop no es el de una nota al pie histórica, sino una chispa (juego de palabras) que aceleró una ola virtuosa de innovación que hizo que las empresas superaran su miedo a los datos, y mucho.
En los últimos años, los titulares se han centrado en la nube, la IA y, por supuesto, la continua saga del código abierto. Pero mire debajo de las sábanas, y este cambio en el centro de atención fue no lejos de los datos, pero porque de eso La nube proporcionó almacenamiento económico en muchas formas; La IA requiere buenos datos y muchos de ellos, y una gran parte de la actividad de código abierto ha sido en bases de datos, integración y marcos de procesamiento. Todavía está ahí, pero difícilmente podemos darlo por sentado.
La nube híbrida es la próxima frontera para los datos empresariales
La simplicidad operativa y la escala del plano de management de la nube hicieron obsoleta la concept de organizar sus propios grupos y domesticar a los animales del zoológico. Hace cinco añospronosticamos que la mayoría de nuevo las cargas de trabajo de huge information estarían en la nube para 2019; en retrospectiva, nuestra predicción resultó demasiado conservadora. Hace un par de añospronosticamos el surgimiento de lo que llamamos The Hybrid Default, señalando las aplicaciones empresariales heredadas como la última frontera para la implementación de la nube, y que la gran mayoría permanecería en las instalaciones.
Eso provocó una ola de introducciones de plataformas de nube híbrida y nuevas opciones de AWS, Oracle y otros para adaptarse a las necesidades de las cargas de trabajo heredadas que, de otro modo, no se trasladarían fácilmente a la nube. Para muchas de esas plataformas híbridas, los datos fueron a menudo el primer servicio en integrarse. Y ahora también estamos viendo que los proveedores de bases de datos en la nube como servicio (DBaaS) introducen nuevas opciones personalizadas para capturar muchas de esas mismas cargas de trabajo heredadas donde los clientes requieren más acceso y management sobre el sistema operativo, las configuraciones de la base de datos y los ciclos de actualización en comparación con las opciones DBaaS estándar existentes. Esas aplicaciones heredadas, con toda su personalización y gravedad de datos, son la última frontera para la adopción de la nube, y la mayor parte será híbrida.
La nube tiene que volverse más fácil
La nube de datos puede ser víctima de su propio éxito si no facilitamos su uso. Period un punto central en nuestro tiro de despedida en las perspectivas de este año. Es possible que las organizaciones que están adoptando servicios de bases de datos en la nube también consuman servicios analíticos y de inteligencia synthetic relacionados y, en muchos casos, pueden estar utilizando múltiples plataformas de bases de datos en la nube. En un servicio DBaaS o SaaS administrado, el proveedor de la nube puede manejar la limpieza, pero en su mayor parte, la carga recae sobre los hombros del cliente para integrar el uso de los diferentes servicios. Más que un debate entre bases de datos especializadas versus multimodelo o convergentes, también es la necesidad de agrupar datos relacionados, integración, análisis y herramientas de ML de extremo a extremo, o al menos hacer que estos servicios sean más listos para usar. En nuestra perspectiva de Datos 2022, pedimos a los proveedores de la nube que comiencen a “hacer que la nube sea más fácil” liberando al cliente de parte de este trabajo de integración.
¿Un lugar para empezar? Unifique el análisis operativo y la transmisión. Estamos empezando a verlo empaquetado de Azure Synapse en canalizaciones de datos y procesamiento de Spark; SAP Knowledge Warehouse Cloud que incorpora visualización de datos; mientras que AWS, Google y Teradata incorporan cargas de trabajo de inferencia de aprendizaje automático (ML) dentro de la base de datos. Pero amigos, todo esto es solo un comienzo.
¿Y qué pasa con la IA?
Si bien nuestro enfoque principal en este espacio ha estado en los datos, es prácticamente imposible separar el consumo y la gestión de datos de la IA y, más específicamente, del aprendizaje automático (ML). Son varias cosas: usar ML para ayudar a ejecutar bases de datos; usar datos como oxígeno para entrenar y ejecutar modelos ML; y cada vez más, poder procesar esos modelos dentro de la base de datos.
Y, en muchos sentidos, la creciente accesibilidad de ML, especialmente a través de las herramientas de AutoML que automatizan o simplifican la unión de las piezas de un modelo o la integración de ML en el análisis, recuerda la disrupción que Tableau trajo al espacio de análisis, haciendo que el autoservicio apuestas de mesa de visualización. Pero ML solo será tan fuerte como su enlace de datos más débil, un punto que se nos enfatizó cuando encuestamos en profundidad a la docena de jefes de análisis y datos de un panadero. hace unos años. No importa cuánta tecnología de autoservicio tenga, resulta que en muchas organizaciones, los ingenieros de datos seguirán siendo un recurso más preciado que los científicos de datos.
El código abierto sigue siendo el elemento important de las bases de datos
Así como AI/ML ha sido un pilar clave en el panorama de datos, el código abierto ha permitido esta explosión cámbrica de plataformas de datos que, según su perspectiva, es una bendición o una maldición. Hemos visto muchos proyectos geniales de código abierto modestos que podrían, desde Kafka a Flink, Flecha, Grafanay GráficoQL despegar prácticamente de la nada.
También hemos visto pequeñas disputas familiares. Cuando comenzamos esta columna, la comunidad de código abierto de Hadoop vio muchos proyectos superpuestos que competían. La gente de Presto no aprendió la lección de Hadoop. La gente de Fb que se puso furiosa cuando los desarrolladores principales de Presto, que se originó allí, se fue para formar su propia empresa. El resultado fueron estúpidas guerras de marca que resultaron en la victoria de Pyric: la gente de Fb que tenía poco que ver con Presto mantuvo la marca registrada, pero no los contribuyentes clave. El resultado fracturó la comunidad, coronando las rodillas de su propio spin-off. Mientras tanto, los cinco principales contribuyentes se unió a Starburstla empresa que fue exiliada de la comunidad, cuya valoración ha crecido hasta los 3.350 millones.
Una de nuestras primeras columnas en 2016 planteó la pregunta de si el software program de código abierto se ha convertido en el modelo de negocio de software program empresarial predeterminado. Esos fueron días inocentes; en los años siguientes, comenzaron a dispararse tiros por la concesión de licencias. El detonante fue la preocupación de que los proveedores de la nube fueran, como dijo el CEO de MariaDB, Michael Howard, minería a cielo abierto de código abierto (Howard se refería a AWS). Posteriormente nos aventuramos a la cuestión de si el núcleo abierto podría ser el bálsamo para los dolores de crecimiento del código abierto. A pesar de todos los silbidosel núcleo abierto está muy vivo en lo que les gusta a los jugadores redis y Apolo GraphQL estás haciendo.
MongoDB disparó el primer tiro con SSPL, seguido de Confluente, CucarachaDB, Elástico, MariaDB, redis y otros. Nuestra opinión es que estos jugadores tenían puntos válidos, pero nos preocupaba la gran variación de licencias cuasi open supply du jour que seguían apareciendo.
El código abierto hasta el día de hoy sigue siendo un tema que pone a muchas personas, en ambos lados del argumento, muy a la defensiva. La pieza que atrajo la mayor cantidad de tweets de llamas fue nuestra publicación de 2018 en DataStax intentando reconciliarse con la comunidad Apache Cassandra, y es notable hoy en día que la compañía está haciendo todo lo posible para no influir en la comunidad.
Por lo tanto, no sorprende que en los últimos seis años, una de nuestras publicaciones más populares planteó la pregunta: ¿Están muertas las bases de datos de código abierto?? Nuestra conclusión de toda la experiencia es que el código abierto ha sido una increíble incubadora de innovación; solo pregúntele a cualquiera en la comunidad de PostgreSQL. También es uno en el que ninguna estrategia única de código abierto podrá satisfacer a todas las personas todo el tiempo. Pero tal vez todo esto sea académico. Independientemente de si el proveedor de la base de datos tiene una licencia de código abierto permisiva o restrictiva, en esta period en la que DBaaS se está convirtiendo en el modo preferido para las nuevas implementaciones de bases de datos, lo que cuenta es la experiencia en la nube. Y esa experiencia no es algo que puedas licenciar.
No olvides los datos gestión
Como hemos señalado, mirar hacia el futuro es el gran ajuste de cuentas sobre cómo manejar todos los datos que llegan a nuestros lagos de datos o que son generados por todo tipo de fuentes políglotas, dentro y fuera del firewall. La conectividad prometida por 5G promete traer el borde más cerca que nunca. En gran parte, ha alimentado el debate emergente sobre las mallas de datos, las casas de lagos de datos y las estructuras de datos. Es una discusión que consumirá gran parte del oxígeno este año.
Ha sido una gran carrera en ZDNet, pero es hora de seguir adelante. Massive on Knowledge se está moviendo. Grande en datos hermano andres brust y yo estamos moviendo nuestra cobertura bajo una nueva pancarta, El canal de datosy esperamos que te unas a nosotros en el próximo capítulo del viaje.