La ejecución de cargas de trabajo de IA llegará a una máquina digital cerca de usted, impulsada por GPU y Kubernetes


holger-link-724884-unsplash.jpg

Run:AI ofrece una capa de virtualización para ejecutar cargas de trabajo de IA

Foto de Holger Hyperlink en Unsplash

Run:AI toma su IA y la ejecuta en la pila de software program súper rápida del futuro. Ese fue el titular de nuestra Artículo de 2019 sobre Run:AI, que entonces acababa de salir del sigilo. Aunque nos gusta pensar que sigue siendo preciso, el enfoque poco convencional de Run:AI ha experimentado un rápido crecimiento desde entonces.

Ejecutar: IA, que se promociona a sí misma como una “plataforma de orquestación de IA”, anunció hoy que ha recaudado 75 millones de dólares en la ronda Serie C dirigida por Tiger International Administration e Perception Companions, quienes lideraron la ronda Serie B anterior. La ronda incluye la participación de inversores existentes adicionales, TLV Companions y S Capital VC, lo que eleva la financiación complete recaudada hasta la fecha a 118 millones de dólares.

Nos reunimos con Omri Geller, CEO y cofundador de Run:AI, para hablar sobre los chips y la infraestructura de IA, el progreso de Run:AI y la interacción entre ellos.

También: H2O.ai lleva la PNL impulsada por grandes maestros de IA a la empresa

Los chips AI son geniales, pero las GPU de Nvidia gobiernan

Run:AI ofrece una capa de software program llamada Atlas para acelerar la ejecución de cargas de trabajo de aprendizaje automático, en las instalaciones y en la nube. Esencialmente, Atlas funciona como una máquina digital para cargas de trabajo de IA: abstrae y agiliza el acceso al {hardware} subyacente.

Eso suena como una solución poco ortodoxa, considerando que la sabiduría convencional para las cargas de trabajo de IA dicta permanecer lo más cerca posible del steel para exprimir el mayor rendimiento posible de los chips de IA. Sin embargo, algunos beneficios provienen de tener algo como Atlas que medie el acceso al {hardware} subyacente.

En cierto modo, es un viejo dilema en TI, que se repite una vez más. En los primeros días del desarrollo de software program, el dilema period si programar usando lenguajes de bajo nivel como Meeting o C o lenguajes de alto nivel como Java. El acceso de bajo nivel ofrece un mejor rendimiento, pero la otra cara es la complejidad.

Una capa de virtualización para el {hardware} utilizado para cargas de trabajo de IA ofrece los mismos beneficios en términos de abstracción y facilidad de uso, además de otros que provienen de la optimización del acceso al {hardware}. Por ejemplo, la capacidad de ofrecer análisis sobre la utilización de recursos o la capacidad de optimizar las cargas de trabajo para su implementación en el {hardware} más adecuado.

Sin embargo, debemos admitir que aunque Run:AI ha progresado mucho desde 2019, no progresó exactamente como pensábamos que podría haberlo hecho. O como pensó el propio Geller, para el caso. En 2019, vimos Run:AI como una forma de abstracción sobre muchos chips de IA diferentes.

Inicialmente, Run:AI admitía las GPU de Nvidia, con el objetivo de agregar compatibilidad con las TPU de Google y otros chips de IA en versiones posteriores. Desde entonces, ha habido mucho tiempo; sin embargo, Run:AI Atlas todavía solo admite GPU Nvidia. Dado que la plataforma ha evolucionado de otras maneras significativas, esta fue claramente una elección estratégica.

La razón, según Geller, es easy: la tracción del mercado. Las GPU de Nvidia son, en basic, lo que los clientes de Run:AI todavía usan para sus cargas de trabajo de IA. Run:AI en sí mismo está experimentando mucha tracción, con clientes como Wayve y London Medical Imaging and AI Centre for Worth Based mostly Healthcare, en verticales como finanzas, automoción, atención médica y juegos.

Hoy en día, existe una amplia variedad de opciones más allá de las GPU de Nvidia para cargas de trabajo de IA. Las opciones van desde soluciones de proveedores en la nube desarrolladas internamente, como TPU de Google o Gravitón y Trainium de AWSa proveedores independientes como Blaize, Cerebras, GraphCore o SambaNova, Instancias basadas en Habana de Intel en AWSo incluso usando CPU.

Sin embargo, la experiencia de campo de Geller es que las organizaciones no solo buscan una forma rentable de entrenar e implementar modelos. También están buscando una forma sencilla de interactuar con el {hardware}, y esta es una razón clave por la que Nvidia aún domina. En otras palabras, todo está en la pila de software program. Esto está de acuerdo con lo que muchos analistas identifican.

Sin embargo, nos preguntábamos si la promesa de un rendimiento superior podría atraer a las organizaciones o si Competidores de Nvidia han logrado de alguna manera cerrar la brecha en términos de evolución y adopción de su pila de software program.

La experiencia de Geller es que, si bien la costumbre Los chips de IA pueden atraer a organizaciones que tienen cargas de trabajo con perfiles específicos orientados al rendimiento, su adopción generalizada sigue siendo baja. Lo que sí ve Run:AI, sin embargo, es una mayor demanda de GPU que no sean Nvidia. Ya sea AMD MI200 o Intel Ponte VecchioGeller ve organizaciones que buscan utilizar más GPU en el futuro cercano.

Kubernetes para IA

El dominio de Nvidia no es la única razón por la que el desarrollo de productos de Run:AI ha resultado como lo ha hecho. Otra tendencia que dio forma a la oferta de Run:AI fue el auge de Kubernetes. Geller cree que Kubernetes es una de las piezas más importantes en la construcción de una pila de IA, ya que los contenedores se usan mucho en la ciencia de datos, y más allá.

Sin embargo, Geller continuó agregando, Kubernetes no se creó para ejecutar cargas de trabajo de alto rendimiento en chips de IA: fue diseñado para ejecutar servicios en CPU clásicas. Por lo tanto, hay muchas cosas que faltan en Kubernetes para ejecutar aplicaciones de manera eficiente utilizando contenedores.

A Run:AI le tomó un tiempo identificar eso. Sin embargo, una vez que lo hicieron, su decisión fue construir su software program como un complemento para Kubernetes para crear lo que Geller llamó “Kubernetes para IA”. Para abstenerse de tomar decisiones específicas del proveedor, la arquitectura Kubernetes de Run:AI siguió siendo ampliamente suitable. Geller dijo que la compañía se ha asociado con todos los proveedores de Kubernetes y que los usuarios pueden usar Run:AI independientemente de la plataforma de Kubernetes que estén usando.

Con el tiempo, Run:AI ha creado un notable ecosistema de socios, incluidos Dell, HP Enterprise, Nvidia, NetApp y OpenShift. Además, la plataforma Atlas también ha evolucionado tanto en anchura como en profundidad. En explicit, Run:AI ahora admite cargas de trabajo de entrenamiento e inferencia. Dado que la inferencia generalmente representa la mayor parte de los costos operativos de la IA en la producción, esto es realmente importante.

Además, Run:AI Atlas ahora se integra con una serie de marcos de aprendizaje automático, herramientas MLOps y ofertas de nube pública. Estos incluyen Weights & Biases, TensorFlow, PyTorch, PyCharm, Visible Studio y JupyterHub, así como Nvidia Triton Inference Server y NGC, Seldon, AirFlow, KubeFlow y MLflow, respectivamente.

También: Rendered.ai presenta Plataforma como servicio para crear datos sintéticos para entrenar modelos de IA

Incluso los marcos que no están preintegrados se pueden integrar con relativa facilidad, siempre que se ejecuten en contenedores sobre Kubernetes, dijo Geller. En lo que respecta a las plataformas en la nube, Run:AI funciona con los 3 principales proveedores de la nube (AWS, Google Cloud y Microsoft Azure), así como en las instalaciones. Geller señaló que la nube híbrida es lo que ven en las implementaciones de los clientes.

61e95e54543a7c75fc680245-atlas-completo-iconos-p-800.png

Run:AI ve la infraestructura de IA como una pila de capas

Ejecutar: IA

Aunque la realidad del mercado que opera Run:AI trastornó parte de la planificación inicial, lo que hizo que la empresa buscara más opciones de operación en lugar de expandir el soporte para más chips de IA, eso no significa que no haya habido avances en el frente técnico.

Los principales logros técnicos de Run:AI se conocen como uso compartido fraccional de GPU, aprovisionamiento de GPU delgado e intercambio de trabajos. El uso compartido de GPU fraccional permite ejecutar muchos contenedores en una sola GPU mientras mantiene cada contenedor aislado y sin cambios de código ni penalizaciones de rendimiento.

Lo que VMware hizo por las CPU, Run:AI lo hace por las GPU, en un ecosistema de contenedores bajo Kubernetes, sin hipervisores, como dijo Geller. En cuanto al aprovisionamiento ligero y el intercambio de trabajos, permiten que la plataforma identifique qué aplicaciones no están utilizando los recursos asignados en cada momento y reasigna dinámicamente esos recursos según sea necesario.

Cabe destacar que Run:AI se incluyó en el Informe de infraestructura de IA de Wave de Forrester publicado en el cuarto trimestre de 2021. La empresa ocupa una posición única entre los proveedores de infraestructura de IA, que incluye proveedores de nube, Nvidia y OEM de GPU.

Todos ellos, dijo Geller, son socios de Run:AI, ya que representan una infraestructura para ejecutar aplicaciones. Geller ve esto como una pila, con {hardware} en la capa inferior, una capa intermedia que actúa como interfaz para los científicos de datos y los ingenieros de aprendizaje automático, y aplicaciones de IA en la capa superior.

Run:AI está experimentando una buena tracción, aumentando sus ingresos recurrentes anuales en 9x y el private en 3x en 2021. La compañía planea utilizar la inversión para hacer crecer aún más sus equipos globales y también considerará adquisiciones estratégicas a medida que desarrolla y mejora su plataforma.

Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram