El aprendizaje automático impulsa el cambio de la recuperación ante desastres en Facebook

Los hiperescaladores tienen miles de millones de usuarios que obtienen acceso a sus servicios de forma gratuita, pero lo curioso es que estos usuarios actúan como si estuvieran pagando y esperan que estos servicios estén siempre disponibles, sin excusas.

Las organizaciones y los consumidores también confían en Facebook, Google, Microsoft, Amazon, Alibaba, Baidu y Tencent para los servicios que pagan, y esperan razonablemente que sus datos estén siempre accesibles y seguros de inmediato, los servicios siempre disponibles, su los resultados de búsqueda siempre aparecen milisegundos después de que se ingresan sus consultas, y las recomendaciones que les llegan personalizadas para ellos. Estos hiperescaladores han construido redes de centros de datos masivos, en todo el mundo, para garantizar que los datos y los servicios estén cerca de sus clientes y que la latencia no se convierta en un problema.

Dado todo esto, la recuperación ante desastres se convierte en una parte crítica del negocio. Las empresas de hiperescala deben asegurarse de que el negocio pueda continuar como de costumbre, incluso si un centro de datos deja de funcionar. Utilizan múltiples zonas de disponibilidad ubicadas dentro de regiones geográficas para garantizar que se pueda acceder a los datos, servicios y cargas de trabajo a través de otros centros de datos si uno no está disponible. Los hiperescaladores como Microsoft, que hace que Azure esté disponible en 140 países, también cuentan con otros planes de recuperación ante desastres, desde la administración de roles en dominios de error hasta la conmutación por error automatizada del tráfico de usuarios a otra región si la región del usuario no permite a los usuarios replicar geográficamente Azure. Almacenamiento en regiones secundarias.

Para Facebook, con sus 2100 millones de usuarios y centros de datos globales en lugares que van desde Santa Clara, California y Ashburn, Virginia hasta Lulea, Suecia y Odense, Dinamarca, la recuperación ante desastres no solo es crucial para sus operaciones, sino que es algo que las gigantes empresas de redes sociales trabaja constantemente.

"La capacidad de manejar sin problemas la pérdida de una parte de la huella global de cómputo, almacenamiento y red de Facebook ha sido un objetivo de larga data de la infraestructura de Facebook", escribió un grupo de ingenieros de Facebook en un artículo reciente sobre la infraestructura de la compañía. "Internamente, nuestro equipo de recuperación ante desastres realiza simulacros con regularidad para identificar y remediar los enlaces más débiles en nuestra infraestructura global y pilas de software. Las acciones disruptivas incluyen desconectar todo un centro de datos con poco o ningún aviso para confirmar que la pérdida de cualquiera de nuestros recursos globales centros de datos da como resultado una interrupción mínima para el negocio".

Garantizar una alta disponibilidad, aunque siempre es fundamental para las operaciones, se ha vuelto aún más importante a medida que el papel de la inteligencia artificial (IA) y el aprendizaje automático se han vuelto aún más frecuentes en las operaciones de la empresa. Facebook está aprovechando el aprendizaje automático en una amplia gama de servicios, desde clasificaciones en la sección de noticias y búsquedas hasta mostrar anuncios dirigidos a usuarios específicos y Facer para el reconocimiento facial, así como traducción de idiomas, reconocimiento de voz y operaciones internas como Sigma para la detección de anomalías. La empresa también utiliza múltiples modelos de aprendizaje automático, incluidas redes neuronales profundas, regresión logística y máquinas de vectores de soporte. Hay marcos de aprendizaje profundo como Caffe2 y PyTorch y capacidades internas de aprendizaje automático como servicio como FBLearner Feature Store, FBLearner Flow y FBLearner Prediction.

Como hemos señalado en The Next Platform, gran parte de la infraestructura de aprendizaje automático distribuida y escalable de Facebook se basa en sistemas diseñados internamente, como el servidor de GPU Big Basin, y depende en gran medida de las CPU de Intel y las GPU de Nvidia para la capacitación. e inferencia. Según los autores del artículo, el crecimiento de las capacidades de aprendizaje automático en todas las operaciones de Facebook otorga una importancia aún mayor a la recuperación ante desastres.

"Tanto para las partes de entrenamiento como de inferencia del aprendizaje automático, no se puede subestimar la importancia de la preparación para desastres", escribieron. "Si bien la importancia de la inferencia para impulsar varios proyectos clave no es sorprendente, existe una dependencia potencialmente sorprendente en el entrenamiento frecuente antes de notar una degradación medible en varios productos clave".

Para medir esa importancia, los ingenieros de Facebook realizaron pruebas para determinar qué sucedería con tres servicios (Noticias, Anuncios e Integridad de la comunidad) si no pudieran entrenar sus modelos durante una semana, un mes y seis meses.

El primer impacto obvio fue la eficiencia del ingeniero, ya que el progreso del aprendizaje automático a menudo está vinculado a ciclos de experimentación frecuentes”, escribieron. “Si bien muchos modelos se pueden entrenar en CPU, el entrenamiento en GPU a menudo permite una mejora notable del rendimiento sobre las CPU para ciertos casos de uso. Estas aceleraciones ofrecen tiempos de iteración más rápidos y la capacidad de explorar más ideas. Por lo tanto, la pérdida de GPU resultaría en una pérdida de productividad neta para estos ingenieros. Además, identificamos un impacto sustancial en los productos de Facebook, en particular para los productos que dependen en gran medida de las actualizaciones frecuentes de sus modelos".

En el servicio de Integridad de la comunidad, que tiene como objetivo identificar y eliminar contenido objetable, no poder entrenar modelos continuamente significaría una degradación del contenido, escribieron los autores. El contenido de la sección de noticias se volvería obsoleto y el impacto en los anuncios (esencialmente, la incapacidad de continuar enviando anuncios relevantes a los usuarios correctos) de no poder entrenar modelos se puede medir en horas. Usar un modelo de un día es significativamente peor que usar un modelo de una hora.

"En general, nuestra investigación sirvió para subrayar la importancia de la capacitación en aprendizaje automático para muchos productos y servicios de Facebook", escribieron los autores. "La preparación para desastres de esa gran y creciente carga de trabajo no debe subestimarse".

El auge de la inteligencia artificial y el aprendizaje automático en las operaciones de Facebook también obligó a la empresa a cambiar la forma en que alojaba sus recursos de GPU. Facebook tenía servidores de cómputo con CPU para capacitación e inferencia en casi todas las regiones del centro de datos, un movimiento para compensar si la región más grande deja de funcionar por cualquier motivo. Sin embargo, los autores señalaron que al principio se subestimó la necesidad de una redundancia similar para los recursos de GPU para el entrenamiento. Las aplicaciones de visión por computadora fueron las primeras cargas de trabajo que usaron GPU para el entrenamiento, y los datos que se usaron para entrenar los modelos se replicaron globalmente.

"Cuando las GPU eran nuevas en la infraestructura de Facebook, implementarlas en una sola región parecía ser una opción inteligente para la capacidad de administración hasta que los diseños maduraran y pudiéramos desarrollar experiencia interna en sus requisitos de servicio y mantenimiento", escribieron. "Estos dos factores llevaron a la decisión de aislar físicamente todas las GPU de producción en una región del centro de datos".

Sin embargo, las nuevas demandas de las GPU cambiaron esa forma de pensar.

"Debido a la mayor adopción de Deep Learning en múltiples productos, incluida la clasificación, la recomendación y la comprensión del contenido, la localidad entre el cómputo de GPU y los grandes datos aumentó en importancia", escribieron los autores. "Y complicar esa necesidad de colocación de datos informáticos fue un giro estratégico hacia un enfoque de megarregión para el almacenamiento. La noción de una megaregión significa que una pequeña cantidad de regiones de centros de datos albergarán la mayor parte de los datos de Facebook. Por cierto, el La región que albergaba toda la flota de GPU no residía en la megarregión de almacenamiento".

Teniendo en cuenta todo eso, y más allá de la importancia de ubicar los recursos informáticos junto con los datos, Facebook dice que "rápidamente se volvió importante considerar lo que podría suceder si alguna vez perdiéramos la región que alberga las GPU por completo. Y el resultado de esa consideración impulsó la necesidad de diversificar las ubicaciones físicas de las GPU utilizadas para el entrenamiento de ML".

Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora