La caída de Facebook y sus aprendizajes técnicos

La caída de Facebook abrió los noticieros del planeta el pasado lunes 4 de octubre.

“Se cayó  Facebook, WhatsApp, Instagram y Messenger”, replicaban millones de usuarios frente a sus celulares con los dedos acalambrados.

Un hito por la importancia de estas herramientas en la vida de las personas, que se produce en un complejo momento de la compañía de Mark Zuckerberg.

También un mega hito desde el punto de vista técnico que puso a prueba la resiliencia de su backbone.

Así llama la compañía a la red global que compone su infraestructura tecnológica.

En esta nota veremos qué dijeron los ingenieros de Facebook y Cloudflare, compañía proveedora de los DNS (Domain Name Servers) de la empresa de Zuckerberg y otras como Apple, Toyota, Ford, Udemy o Tinder.

Por qué se cayó Facebook: una mirada técnica de Cloudflare

El monitoreo de Cloudflare del colapso de Facebook y sus empresas afiliadas.

El lunes a las 15:51 UTC (Universal Time Coordinated), los ingenieros de Cloudflare abrieron un incidente titulado «Búsqueda de DNS de Facebook devuelve SERVFAIL».

Algo andaba mal con la respuesta de su DNS 1.1.1.1. (directorio DNS más rápido y potente) y en minutos el mundo estalló.

Antes de seguir, recordemos que los DNS son la libreta de direcciones de Internet, lo que permite que los nombres que escribimos en los navegadores, se traduzcan en direcciones IP específicas.

Volvamos al día histórico. El lunes, Facebook y sus servicios afiliados habían desaparecido. Cloudflare señala en su blog que los DNS de FB dejaron de responder las consultas y su infraestructura IP se tornó inalcanzable.

“Era como si alguien hubiera sacado los cables de sus centros de datos de una vez”, escribió el Director de Ingeniería de Cloudflare, Celso Martino.

Si no se puede acceder a los servidores de nombres o no responden por algún otro motivo, se devuelve un SERVFAIL y el navegador envía un error al usuario.

BGP: el protocolo responsable en la caída de Facebook

BGP (Border Gateway Protocol) es un protocolo para intercambiar información entre los routers de Internet, responsable de unir la red de redes con listas enormes y actualizadas de las posibles rutas en las que viajan las solicitudes y respuestas en Internet.

Es un mecanismo que intercambia información de enrutamiento entre los llamados sistemas autónomos (AS) en Internet. Sin BGP, los routers de Internet no sabrían qué hacer y la web no funcionaría.

“Se retiraron las rutas, los servidores DNS de Facebook se desconectaron debido a que dejaron de anunciar sus rutas de prefijo DNS a través de BGP…En consecuencia, los DNS comenzaron a emitir (y almacenar en caché) respuestas SERVFAIL”, dicen en Cloudflare.

La caída de Facebook según Facebook

Horas después de reponer sus servicios (lunes 4 octubre, 21:28 hrs UTC), Facebook atribuyó la falla a error humano en el mantenimiento de su Backbone: red troncal o columna vertebral que conecta su infraestructura TI.

Facebook denomina backbone a miles de kilómetros de cables de fibra óptica que cruzan el mundo y conectan todos sus centros de datos.

Estos son los que responden cuando uno de nosotros whatsappea, da un like a una foto en Instagram o comenta en Facebook.

Cuando un usuario realiza una acción, la solicitud viaja desde su dispositivo al centro de datos más cercano, que a su vez se comunica con uno más grande.

Ahí es donde la información que necesita su aplicación se recupera, procesa y se envía de vuelta a través de la red a su teléfono.

En el mantenimiento de esa infraestructura se cometió el error.

“Esa fue la fuente del apagón del lunes. Durante trabajos de mantenimiento de rutina, se ingresó un comando que accidentalmente cortó todas las conexiones en nuestra red troncal.

Eso desconectó los centros de datos de Facebook a nivel mundial, haciendo imposible que el resto de Internet encontrara nuestros servidores”, señaló Santosh Janardhan VP, de infraestructura de la empresa.

El factor humano y los aprendizajes de la caída de Facebook

Uno de los cientos de meme provocados por la caída masiva de Facebook.

Además del problema técnico, la ansiedad humana por acceder a los servicios aumentó el problema.

Millones de personas tecleando al unísono para acceder provocó un tsunami de requerimientos. 

Mientras actualizaban las páginas o desinstalaban/ instalaban apps para que funcionaran, agregaron leña al fuego.

Los DNS en todo el mundo registraron 30 veces más consultas que lo habitual, causando problemas de latencia y tiempo de espera en otras plataformas.

De hecho, Cloudflare registró aumentos exponenciales en otras redes sociales como Twitter, Signal, Telegram y otras plataformas de mensajería.

Para Facebook, el aprendizaje de este apagón va por dos caminos:

-Por un lado mejorar los simulacros tormenta donde simulan fallas del sistema desconectando un servicio, un centro de datos o una región completa, probando la infraestructura y el software involucrados.

-Por el otro, revisar el equilibrio entre sistemas de seguridad para evitar el acceso no autorizado y la velocidad de respuesta.

“El endurecimiento en seguridad nos ralentizó mientras intentábamos recuperarnos de una interrupción no causada por una intervención maliciosa, sino por un error nuestro”, reflexiona Janardhan.

Como sea lo del lunes nos recordó que Internet es un sistema complejo e interdependiente de millones de sistemas y protocolos que trabajan juntos.

Un sistema donde la estandarización y cooperación entre entidades son fundamentales para que funcione para casi cinco mil millones de usuarios activos en todo el mundo.

Y desde el punto de vista más humano, nos recordó algo que no podemos olvidar jamás: que las tecnologías son herramientas, no soluciones.

Fusiona Avatar

Si quieres saber cómo podemos ayudarte

Contactanos

Artículos Relacionados