Pico: AIO aumenta el rendimiento de almacenamiento para un servicio de datos de IA asequible


Las organizaciones que desean mantener sus costosas GPU alimentadas con datos para fines de capacitación en aprendizaje automático, pero que no desean romper el banco con una gran instalación de un sistema de archivos paralelo, pueden estar interesadas en una nueva y rápida oferta de almacenamiento basado en NFS presentada hoy por Peak:AIO. , que ofrece 80 GB por segundo de capacidad de E/S desde un servidor de 1U.

Pico:AIO desarrolla sistemas de almacenamiento de datos independientes del servidor diseñados para cargas de trabajo de IA, como los sistemas DGX de nvidia. La iteración anterior de la empresa británica del AI Information Server, que vende a través de socios de {hardware} como DellEMC y supermicro, podría entregar 40 GB por segundo de E/S de almacenamiento a través de RDMA sobre NFS desde una caja de 2U. Con la última versión del servidor de datos AI, la empresa duplicó la E/S de datos y redujo el tamaño de la caja a la mitad, a un sistema de 1U.

Según el fundador y director ejecutivo de PEAK:AIO, Mark Klarzynski, se trata de ofrecer el mayor rendimiento en almacenamiento por el dinero de los clientes. “La clave para nosotros realmente es mantener los fondos en los bits que dan el retorno de la inversión al usuario, que son las GPU”, cube.

Klarzynski fundó Peak:AIO en 2019 para hacerse cargo de un nuevo segmento del mercado. Como veterano del almacenamiento que jugó un papel decisivo en el establecimiento del almacenamiento definido por software program, Klarzynski ha hecho su mercado en el espacio. Realizó parte del trabajo basic con iSCSI, Fibre Channel e InfiniBand con sus empresas emergentes anteriores, incluidas algunas adquiridas por Tandberg Information y Fusion-iO.

Al diseñar su plan para su última puesta en marcha, Peak:AIO, Klarzynski se dio cuenta de que los grandes proveedores de almacenamiento estaban perdiendo un gran segmento del mercado. Descubrió que los proveedores de almacenamiento tradicionales no estaban dando en el blanco cuando se trataba de ofrecer un almacenamiento rápido y fácil de usar para la capacitación en IA, en explicit entre las empresas emergentes y las más pequeñas.

“Estaban gastando una cantidad significativa de dinero en GPU que vamos a subutilizar porque no pudieron obtener los datos”, cube Klarzynski. “Y debido a que me centro mucho en el almacenamiento, me llevó bastante tiempo asimilar esto”.

Mark Klarzynsk es el fundador y director normal de PEAK:AIO

A medida que proliferaban las cargas de trabajo de IA, una nueva clase de organizaciones adoptaba configuraciones de procesamiento de alta gama, como los sistemas DGX de NVidia. Un hospital que necesita usar algoritmos de visión por computadora para detectar tumores cerebrales a partir de resonancias magnéticas, por ejemplo, puede justificar una inversión de $250 000 en un sistema DGX. Sin embargo, cuando se trata de comprar los 50 TB a 100 TB de almacenamiento NVMe de gama alta que el hospital necesitaba para mantener el sistema DGX alimentado con datos, estaban considerando un desembolso de $ 600,000 a $ 700,000.

“Entonces, lo que les dio el valor fue un tercio del costo del almacenamiento que en realidad no les importaba”, cube Klarzynski. “Nunca iban a respaldarlo, porque eso se estaba tratando en otro lugar. Nunca iban a tomar una instantánea. No pudieron desengañarlo. Solo lo necesitan para alimentar la GPU”.

Klarzynski se inspiró en Datos VAST. “Salieron con un mensaje que decía, mira, a nadie le gustan los sistemas de archivos paralelos. Hagamos que NFS que todo el mundo entienda vaya tan rápido como los sistemas de archivos paralelos”, cube. “Y resonó”.

Así nació Peak:AIO. Klarzynski encontró un mercado que exigía almacenamiento NVMe de extremely alto rendimiento sobre un sistema de archivos NFS, pero sin todas las campanas y silbatos que tradicionalmente acompañan a los grandes arreglos de almacenamiento basados ​​en sistemas de archivos paralelos.

Al igual que VAST Information, Peak:AI se quedaría con NFS, que es más fácil de administrar que un sistema de archivos paralelo. Pero en lugar de apuntar a los mercados empresariales y de HPC con todas las funciones de gama alta que demandan esos clientes, Peak:AIO buscaría a los equipos más pequeños que solo necesitan mantener sus GPU alimentadas desde un puñado de cajas de almacenamiento.

La mayor dificultad para desarrollar lo que se conocería como AI Information Server, cube Klarzynski, fue hacerlo “amigable con Nvidia”. La empresa adoptó el protocolo RDMA y lo estandarizó en los adaptadores Mellanox para garantizar la compatibilidad con la forma en que Nvidia quiere conectarse a los datos.

“Eliminamos muchas de esas funciones, como instantáneas, deduplicación, replicación, que A. no eran necesarias y B. agregaba latencia dentro del código, incluso si estaban desactivadas”, cube Klarzynski. “Eso nos permitió diferenciarnos un poco… Y dedicamos mucho trabajo authorized con Nvidia para asegurarnos de que tuviéramos toda esa compatibilidad con RDMA”.

Con la primera iteración del servidor de datos AI, PEAK:AIO pudo manejar dos tarjetas de pink RDMA de 200 Gbps (CX-6) de Mellanox (propiedad de Nvidia), que entregaron 40 GB por segundo en capacidad whole de E/S, cube la compañía . Con la nueva iteración del servidor, PEAK:AIO admite tarjetas CX-7, que admiten hasta dos tarjetas de 400 Gbps, lo que ofrece 80 GB por segundo en E/S whole.

PCIe5 es basic para brindar esa aceleración, cube Klarzynski, pero se necesitó un poco de ingeniería inteligente por parte de PEAK: AIO para hacer un uso eficiente de todo ese ancho de banda.

“El truco es… normalmente, cuando medimos el ancho de banda en el mundo regular, ya sea HPC, empresa o large information, tendemos a pensar que está impulsado por múltiples usuarios o múltiples clientes”, cube. “Por lo normal, en la IA, a menudo son solo uno o dos. Entonces, mientras obtener el rendimiento y sacarlo (fue difícil), permitir que una máquina lo hiciera fuera en realidad más difícil, porque la mayoría de los protocolos estándar simplemente no funcionan tan rápido. Así que tuvimos que trabajar mucho, lo que significa que no solo podíamos manejar 80 GB, sino que podíamos hacerlo en una o dos máquinas, no en 10 o 20”.

Hasta ahora, el mensaje y el producto parecen estar resonando. Klarzynski cube que la demanda de su servidor de datos AI ha superado hasta ahora sus expectativas anteriores. Lo atribuye a la adopción más rápida de lo esperado de la IA, incluidos los grandes modelos de lenguaje. La mayoría de los clientes PEAK:AIO requieren alrededor de 50 TB a 150 TB de almacenamiento, mientras que recibe pedidos ocasionales de más de 1 PB.

“Cuando juntas todas esas cosas, como hicimos nosotros, regresas a ese tipo de declaración de misión cliché, que es que creamos un producto que les dio el precio, el rendimiento y las características que necesitaban o no necesitaban. , y simplemente funcionó”, cube. “Y fue fundamentalmente muy easy”.

El nuevo servidor de datos de IA aún no es GA, pero está disponible para pruebas. Los sistemas actuales comienzan en $8,000. Para obtener más información, consulte el sitio internet de la empresa en www.peakaio.com.

Artículos relacionados:

El almacenamiento de objetos y archivos se ha fusionado, pero las diferencias de productos permanecen, cube Gartner

Por qué el almacenamiento de objetos es la respuesta al mayor desafío de la IA

Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram