banner

Noticias

Apr 07, 2023

La infraestructura de aprendizaje automático en expansión de Facebook

Aquí en The Next Platform, tendemos a observar de cerca cómo los principales hiperescaladores evolucionan su infraestructura para admitir cargas de trabajo cada vez más complejas y de escala masiva.

No hace mucho tiempo, los servicios principales eran transacciones y operaciones relativamente estándar, pero con la adición de capacitación e inferencia en modelos complejos de aprendizaje profundo, algo que requiere un enfoque de dos manos para el hardware, la pila de hardware de hiperescala ha tenido que acelerar su paso para manténgase al día con las nuevas demandas de rendimiento y eficiencia del aprendizaje automático a escala.

Si bien no innova en el lado del hardware personalizado de la misma manera que Google, Facebook ha compartido algunos avances notables en el ajuste de sus propios centros de datos. Desde su exclusiva columna vertebral de red dividida, el sistema de visualización basado en redes neuronales, hasta las actualizaciones a gran escala de sus granjas de servidores y su trabajo para perfeccionar el uso de la GPU, hay mucho en lo que centrarse en cuanto a la infraestructura. Para nosotros, uno de los desarrollos más proféticos de Facebook son sus propios diseños de servidor que ahora sirven a más de 2 mil millones de cuentas a fines de 2017, específicamente su último enfoque basado en Open Compute lleno de GPU.

El sistema "Big Basin" de la compañía, presentado en la cumbre OCP del año pasado, es el sucesor de la máquina "Big Sur" de primera generación que el gigante de las redes sociales presentó en la conferencia Neural Information Processing Systems en diciembre de 2015. Como señalamos en el comunicado en un sumergirse profundamente en la arquitectura, la máquina Big Sur abarrotó ocho de los aceleradores Tesla M40 de Nvidia, que se deslizan en las ranuras PCI-Express 3.0 x16 y que tiene 12 GB de memoria de búfer de cuadro GDDR5 para que se reproduzcan las aplicaciones CUDA, y dos "Haswell" Xeon Procesadores E5 en un chasis bastante alto. Desde entonces, el diseño se ha ampliado para admitir las últimas GPU Nvidia Volta V100.

Facebook también afirma que, en comparación con Big Sur, la nueva plataforma V100 Big Basin permite ganancias mucho mejores en el rendimiento por vatio, beneficiándose de la aritmética de punto flotante de precisión simple por GPU "que aumenta de 7 teraflops a 15,7 teraflops, y memoria de alto ancho de banda ( HBM2) que proporciona un ancho de banda de 900 GB/s (3,1x de Big Sur)". El equipo de ingeniería señala que la precisión media también se duplicó con esta nueva arquitectura para mejorar aún más el rendimiento.

"Big Basin puede entrenar modelos que son un 30 por ciento más grandes debido a la disponibilidad de un mayor rendimiento aritmético y un aumento de memoria de 12 GB a 16 GB. El entrenamiento distribuido también se mejora con la comunicación entre GPU NVLink de gran ancho de banda", agrega el equipo. .

Facebook dice que el cambio a "Big Basin" ha llevado a una mejora del 300 por ciento en el rendimiento sobre Big Sur en ResNet-50 como ejemplo y que, si bien están satisfechos con estos resultados, todavía están evaluando nuevos diseños y tecnologías de hardware.

Por ahora, sin embargo, su infraestructura de aprendizaje automático se compone solo de CPU y GPU estándar. Si bien no sorprende que no hayan tomado la ruta de Google para construir sus propios ASIC personalizados para el aprendizaje profundo a escala dadas las diferencias en los objetivos comerciales, es seguro decir que Facebook se apega a sus armas Nvidia e Intel por el momento como otros hiperescaladores buscan diversificarse en el frente de la CPU con Epyc de AMD.

En una descripción detallada que Facebook acaba de publicar de su infraestructura de hardware actual, el gigante de las redes sociales describe cómo admiten ocho tipos principales de racks de computación y almacenamiento que se asignan a servicios específicos.

"Los nuevos servicios tienden a asignarse a los tipos de rack existentes hasta que alcanzan el nivel de garantizar su propio diseño de rack", señalan los diseñadores de infraestructura, señalando el ejemplo a continuación del chasis 2U que contiene tres diapositivas con dos tipos de servidores diferentes. Uno tiene una CPU de un solo socket compatible con el nivel web, que es una carga de trabajo sin estado orientada al rendimiento y puede ejecutarse de manera eficiente en una CPU de menor potencia como el Xeon D con menos memoria y flash. La otra opción de sled es un servidor de CPU de doble zócalo más grande con un procesador Broadwell o Skylake más robusto y mucha más DRAM para hacer frente a cargas de trabajo más pesadas desde el punto de vista informático y de memoria.

Más allá de usar el aprendizaje automático en servicios establecidos como la búsqueda, las fuentes de noticias y la entrega de anuncios, Facebook también ha implementado herramientas propias como Sigma, el marco general de clasificación y detección de anomalías para muchas operaciones de back-end, incluida la detección de spam y fraude y la seguridad general. La suite Lumos extrae imágenes y contenido que los algoritmos de aprendizaje automático interpretan y transmiten para mejorar los servicios. Además, el motor de reconocimiento y detección de rostros de la empresa, Facer, es parte de su infraestructura de aprendizaje automático más grande. La compañía también tiene su propia traducción de idiomas y herramientas de reconocimiento de voz. A continuación se muestra la contabilidad de Facebook del enfoque del marco de aprendizaje profundo para cada uno de estos servicios y los entornos de hardware correspondientes para capacitación, inferencia o ambos.

Facebook explica que, actualmente, el caso de uso principal de las máquinas con GPU es el entrenamiento fuera de línea, en lugar de proporcionar datos en tiempo real a los usuarios. Esto fluye lógicamente dado que la mayoría de las arquitecturas de GPU están optimizadas para el rendimiento sobre la latencia. Mientras tanto, el proceso de capacitación aprovecha en gran medida los datos de las grandes tiendas de producción, por lo tanto, por razones de rendimiento y ancho de banda, las GPU deben estar en producción cerca de los datos a los que se accede. Los datos aprovechados por cada modelo están creciendo rápidamente, por lo que esta localidad para la fuente de datos (muchos de los cuales son regionales) se está volviendo más importante con el tiempo.

"Si bien muchos modelos se pueden entrenar en CPU, el entrenamiento en GPU a menudo permite una mejora notable del rendimiento con respecto a las CPU para ciertos casos de uso. Estas aceleraciones ofrecen tiempos de iteración más rápidos y la capacidad de explorar más ideas. Por lo tanto, la pérdida de GPU daría lugar a una pérdida neta de productividad para estos ingenieros".

"El entrenamiento de los modelos se realiza con mucha menos frecuencia que la inferencia: la escala de tiempo varía, pero generalmente es del orden de días. El entrenamiento también lleva un tiempo relativamente largo para completarse, generalmente horas o días. Mientras tanto, dependiendo del producto, el La fase de inferencia en línea puede ejecutarse decenas de billones de veces al día y, por lo general, debe realizarse en tiempo real. En algunos casos, particularmente para los sistemas de recomendación, también se realiza capacitación adicional en línea de manera continua".

Se puede acceder al documento completo de Facebook aquí.

Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora

COMPARTIR