NVIDIA lo hizo de nuevo, pero esta vez con un giro: parecía tomar prestada una página del libro de jugadas de la competencia. En NVIDIA GTC, que se ha convertido en uno de los eventos más importantes de la industria de la IA, la compañía anunció la última versión de su arquitectura de {hardware} y sus productos. Aquí hay un desglose de los anuncios y lo que significan para el ecosistema en common.
Hopper: la nueva arquitectura GPU de NVIDIA
GTC, que comenzó el lunes y se extenderá hasta el jueves, presenta más de 900 sesiones. Más de 200 000 desarrolladores, investigadores y científicos de datos de más de 50 países se han registrado para el evento. En su GTC 2022 elementaryel fundador y CEO de NVIDIA, Jensen Huang, anunció una gran cantidad de novedades en centros de datos y computación de alto rendimiento, IA, colaboración de diseño y gemelos digitales, redes, automoción, robótica y atención médica.
El marco de Huang fue que “las empresas están procesando, refinando sus datos, creando software program de IA… convirtiéndose en fabricantes de inteligencia”. Si el objetivo es transformar los centros de datos en ‘Fábricas de IA’, como cube NVIDIA, entonces tiene sentido colocar a los Transformers en el centro de todo esto.
La página central de los anuncios ha sido la nueva arquitectura Hopper GPU, que NVIDIA denomina “la próxima generación de computación acelerada”. Nombrada en honor a Grace Hopper, una científica informática pionera de EE. UU., la nueva arquitectura sucede a la arquitectura NVIDIA Ampere, lanzada hace dos años. La compañía también anunció su primera GPU basada en Hopper, la NVIDIA H100.
NVIDIA afirma que Hopper brinda un salto de rendimiento de un orden de magnitud con respecto a su predecesor, y esta hazaña se basa en seis innovaciones revolucionarias. Repasémoslos, tomando notas rápidas de cómo se comparan con la competencia.
Primero, la fabricación. Construido con 80 mil millones de transistores utilizando un proceso TSMC 4N de vanguardia diseñado para las necesidades informáticas aceleradas de NVIDIA, H100 presenta importantes avances para acelerar AI, HPC, ancho de banda de memoria, interconexión y comunicación, incluidos casi 5 terabytes por segundo de conectividad externa. En el nivel de fabricación, advenedizos como cerebros o gráfico también han estado empujando los límites de lo que es posible.
La GPU NVIDIA H100, la primera en utilizar la nueva arquitectura Hopper NVIDIA
En segundo lugar, GPU de múltiples instancias (MIG). La tecnología MIG permite dividir una sola GPU en siete instancias más pequeñas y completamente aisladas para manejar diferentes tipos de trabajos. La arquitectura Hopper amplía las capacidades MIG hasta 7 veces con respecto a la generación anterior al ofrecer configuraciones seguras de múltiples inquilinos en entornos de nube en cada instancia de GPU. Run:AI, socio de NVIDIA, ofrece algo related como capa de software programcon el nombre de uso compartido fraccional de GPU.
Tercero, computación confidencial. NVIDIA afirma que H100 es el primer acelerador del mundo con capacidades informáticas confidenciales para proteger los modelos de IA y los datos de los clientes mientras se procesan. Los clientes también pueden aplicar la computación confidencial a aprendizaje federado para industrias sensibles a la privacidad como la atención médica y los servicios financieros, así como en infraestructuras de nube compartidas. Esta no es una característica que hayamos visto en otros lugares.
Cuarto, NVIDIA NVLink de cuarta generación. Para acelerar los modelos de IA más grandes, NVLink se combina con un nuevo conmutador NVLink externo para extender NVLink como una purple escalable más allá del servidor, conectando hasta 256 GPU H100 con un ancho de banda 9 veces mayor en comparación con la generación anterior que usa NVIDIA HDR Quantum InfiniBand. Nuevamente, esto es específico de NVIDIA, aunque los competidores a menudo aprovechan su propia infraestructura especializada para conectar también su {hardware}.
Quinto, instrucciones DPX para acelerar la programación dinámica. La programación dinámica es tanto un método de optimización matemática como un método de programación de computadoras, desarrollado originalmente en la década de 1950. En términos de optimización matemática, la programación dinámica generalmente se refiere a simplificar una decisión dividiéndola en una secuencia de pasos de decisión a lo largo del tiempo. La programación dinámica es principalmente una optimización sobre recursividad easy.
NVIDIA señala que la programación dinámica se utiliza en una amplia gama de algoritmos, incluida la optimización de rutas y la genómica, y puede acelerar la ejecución hasta 40 veces en comparación con las CPU y hasta 7 veces en comparación con las GPU de la generación anterior. No conocemos un equivalente directo en la competencia, aunque muchos nuevos chips de IA también aprovechan el paralelismo.
La sexta innovación es la que consideramos más importante: una nuevo motor transformador. Como señala NVIDIA, los transformadores son la opción de modelo estándar para el procesamiento del lenguaje pure y uno de los modelos de aprendizaje profundo más importantes jamás inventados. El Transformer Engine del acelerador H100 está diseñado para acelerar estas redes hasta 6 veces en comparación con la generación anterior sin perder precisión. Esto merece un mayor análisis.
El Transformer Engine en el corazón de Hopper
Mirando el titular del nuevo motor transformador en el corazón de H100 de NVIDIA, recordamos Comentarios del arquitecto de Intel Raja M. Koduri a Tiernan Ray de ZDNet. Koduri señaló que la aceleración de las multiplicaciones de matrices es ahora una medida esencial del rendimiento y la eficiencia de los chips, lo que significa que cada chip será un procesador de purple neuronal.
Koduri fue perfecto, por supuesto. Además de los propios esfuerzos de Intel, esto es lo que ha estado impulsando una nueva generación de diseños de chips de IA de una variedad de advenedizos. Ver a NVIDIA referirse a un motor de transformador nos hizo preguntarnos si la empresa hizo un rediseño radical de sus GPU. Después de todo, las GPU no se diseñaron originalmente para cargas de trabajo de IA, simplemente resultaron ser buenas en ellas, y NVIDIA tuvo la previsión y la perspicacia para construir un ecosistema a su alrededor.
Profundizando en El propio análisis de NVIDIA de la arquitectura HopperSin embargo, la concept de un rediseño radical parece disiparse. Si bien Hopper presenta un nuevo multiprocesador de transmisión (SM) con muchas mejoras de rendimiento y eficiencia, eso es todo. Eso no es sorprendente, dado el gran peso del ecosistema construido alrededor de las GPU NVIDIA y las actualizaciones masivas y las posibles incompatibilidades que implicaría un rediseño radical.
Desglosando las mejoras en Hopper, la memoria parece ser una gran parte. Como gerente de producto de Fb para PyTorch, la common biblioteca de capacitación de aprendizaje automático, dijo ZDNet, “Los modelos se hacen cada vez más grandes, son muy, muy grandes y muy caros de entrenar”. Los modelos más grandes en estos días a menudo no se pueden almacenar por completo en los circuitos de memoria que acompañan a una GPU. Hopper viene con memoria que es más rápida, más y compartida entre SM.
Otro impulso proviene de los nuevos núcleos tensoriales de cuarta generación de NVIDIA, que son hasta 6 veces más rápidos de chip a chip en comparación con A100. Los núcleos de tensor son precisamente lo que se usa para las multiplicaciones de matrices. En H100, se utiliza un nuevo tipo de datos FP8, lo que da como resultado un cálculo 4 veces más rápido en comparación con las opciones de coma flotante de 16 bits de la generación anterior. En tipos de datos equivalentes, todavía hay una aceleración de 2x.
Resumen de mejora informática H100 NVIDIA
En cuanto al llamado “nuevo motor de transformador”, resulta que este es el término que usa NVIDIA para referirse a “una combinación de software program y tecnología NVIDIA Hopper Tensor Core personalizada diseñada específicamente para acelerar el entrenamiento y la inferencia del modelo de transformador”.
NVIDIA señala que el motor del transformador gestiona de forma inteligente y elige de forma dinámica entre FP8 y cálculos de 16 bits, gestionando automáticamente la refundición y el escalado entre FP8 y 16 bits en cada capa para ofrecer un entrenamiento de IA hasta 9 veces más rápido y una inferencia de IA hasta 30 veces más rápida. aceleraciones en modelos de lenguaje grande en comparación con la generación anterior A100.
Entonces, si bien este no es un rediseño radical, la combinación de mejoras de rendimiento y eficiencia da como resultado una aceleración de 6 veces en comparación con Ampere, como explica el weblog técnico de NVIDIA. El enfoque de NVIDIA en mejorar el rendimiento de los modelos de transformadores no está del todo fuera de lugar.
Los modelos de transformadores son la columna vertebral de los modelos de lenguaje que se utilizan ampliamente en la actualidad, como BERT y GPT-3. Inicialmente desarrollado para casos de uso de procesamiento de lenguaje pure, su versatilidad se está aplicando cada vez más a la visión synthetic, el descubrimiento de fármacos y más, como hemos estado documentando en nuestro Estado de la cobertura de IA. Según una métrica compartida por NVIDIA, el 70 % de las investigaciones publicadas sobre IA en los últimos 2 años se basan en transformadores.
El lado del software program: buenas noticias para los usuarios de Apache Spark
Pero, ¿qué pasa con el lado del software program de las cosas? En anuncios anteriores de GTC, las actualizaciones de la pila de software program fueron una parte clave de las noticias. En este caso, mientras que las heurísticas ajustadas por NVIDIA que eligen dinámicamente entre los cálculos FP8 y FP16 son una parte clave interna del nuevo motor de transformadores, las actualizaciones de la pila de software program externa parecen menos importantes en comparación.
El servidor de inferencia Triton de NVIDIA y el marco NeMo Megatron para entrenar modelos de lenguaje grandes están recibiendo actualizaciones. También lo son Riva, Merlin y Maxin, un SDK de inteligencia synthetic de voz que incluye modelos preentrenados, un marco de referencia de inteligencia synthetic de extremo a extremo y un SDK de mejora de calidad de audio y video, respectivamente. Como destacó NVIDIA, estos son utilizados por empresas como AT&T, Microsoft y Snapchat.
También hay 60 actualizaciones de SDK para las bibliotecas CUDA-X de NVIDIA. NVIDIA optó por destacar áreas emergentes como la aceleración de la simulación de circuitos cuánticos (disponibilidad common de cuQuantum) y la investigación de la capa física 6G (disponibilidad common de Sionna). Sin embargo, para la mayoría de los usuarios, la buena noticia probablemente esté en el actualización en RAPIDS Accelerator para Apache Sparkque acelera el procesamiento en más de 3 veces sin cambios de código.
Si bien esto no fue exactamente prominente en los anuncios de NVIDIA, creemos que debería serlo. Una aceleración de la noche a la mañana 3x sin cambios de código para los usuarios de Apache Spark, con el 80 por ciento de Fortune 500 usando Apache Spark en producción, no es una noticia pequeña. no es la primera vez NVIDIA les muestra algo de amor a los usuarios de Apache Spark.
En common, NVIDIA parece estar manteniendo su impulso. Si bien la competencia es feroz, con el ventaja que NVIDIA ha logrado creares posible que no se requieran rediseños radicales.