Amazon Web Services (AWS), la división de computación en la nube de Amazon, emitió una disculpa pública luego de la enorme interrupción registrada el lunes 20 de octubre, que dejó fuera de servicio a más de un millar de plataformas y aplicaciones en todo el mundo. Entre los afectados se encontraron gigantes como Snapchat, Reddit, Lloyds Bank, Venmo, e incluso plataformas de videojuegos como Roblox y Fortnite.
La falla se originó en US-EAST-1, el principal clúster de centros de datos de Amazon ubicado en el norte de Virginia (EE.UU.), una región crítica que alimenta buena parte del tráfico global de internet. Según explicó la compañía, el problema se produjo por errores en los sistemas internos que impidieron la conexión entre los sitios web y las direcciones IP necesarias para ubicarlos en la red.
“Sabemos cuán críticos son nuestros servicios para los clientes, sus aplicaciones y sus usuarios finales. Lamentamos profundamente el impacto que este evento provocó”, declaró Amazon en un comunicado oficial.
Una falla que paralizó parte de internet
Aunque muchas plataformas lograron restablecer sus servicios en pocas horas, otras experimentaron interrupciones prolongadas. Lloyds Bank, por ejemplo, reportó inconvenientes durante gran parte del día, y en EE.UU. Venmo y Reddit enfrentaron cortes intermitentes.
El incidente incluso afectó dispositivos conectados de forma insólita: Eight Sleep, una empresa que fabrica colchones inteligentes controlados por internet, reconoció que algunos usuarios no pudieron ajustar la temperatura o la inclinación de sus camas debido a la caída de AWS.
Qué provocó la caída de AWS
En su informe técnico, Amazon detalló que el problema se debió a un fallo en los procesos de sincronización de su base de datos de DNS (Domain Name System), el sistema que traduce los nombres de los sitios web en direcciones IP. Esta desincronización generó una “condición de carrera latente”, es decir, un error oculto que se activa solo bajo una secuencia muy específica de eventos.
La causa raíz, según la compañía, fue un fallo en la automatización interna, que rompió el “libro de direcciones” utilizado por los sistemas de esa región para comunicarse entre sí.
“El motivo técnico específico fue una automatización defectuosa que interrumpió los sistemas internos de direccionamiento”, explicó el ingeniero de software Dr. Junade Ali, del Institute for Engineering and Technology, en declaraciones a la BBC.
Un recordatorio sobre la dependencia tecnológica
El episodio volvió a poner en evidencia la enorme dependencia de internet respecto de Amazon y Microsoft Azure, los dos grandes dominadores del mercado global de la nube. Para muchos especialistas, esta concentración implica un riesgo sistémico: cuando una de estas infraestructuras falla, buena parte de la red global colapsa con ella.
Ali advirtió que las empresas deberían diversificar sus proveedores de servicios en la nube y diseñar arquitecturas capaces de “conmutar por error” (failover) hacia otros centros de datos o plataformas cuando una región deja de estar disponible.
Amazon, por su parte, aseguró que “hará todo lo posible por aprender del incidente y mejorar la disponibilidad de sus servicios”.
La caída de AWS no solo interrumpió transacciones, comunicaciones y videojuegos, sino que también sirvió como una lección para toda la industria: incluso las infraestructuras más poderosas del mundo digital pueden tambalear ante un error de automatización.
