Amazon afirmó que una falla importante de DNS fue la causa de la interrupción masiva de Amazon Web Services (AWS) que provocó la caída de numerosos sitios web y servicios en línea el lunes.
Este incidente afectó a un centro de datos crítico del norte de Virginia, en la región US-EAST-1, y afectó a usuarios de todo el mundo, incluyendo Estados Unidos y Europa, durante más de 14 horas.
Según un análisis posterior publicado el jueves, una condición de carrera provocó una falla importante de DNS en la infraestructura de Amazon DynamoDB, específicamente en su sistema de gestión de DNS, que controla cómo se enrutan las solicitudes de los usuarios a servidores en buen estado. Esto provocó la eliminación accidental de todas las direcciones IP del punto final regional del servicio de base de datos.
“La causa principal de este problema fue una condición de carrera latente en el sistema de gestión de DNS de DynamoDB, que resultó en un registro DNS vacío incorrecto para el punto final regional del servicio (dynamodb.us-east-1.amazonaws.com), que la automatización no pudo reparar”, declaró Amazon.
Cuando se produjo este problema a las 23:48 PDT, todos los sistemas que necesitaban conectarse al servicio DynamoDB en la región de Virginia del Norte (us-east-1) a través del punto final público comenzaron a experimentar inmediatamente fallos de DNS y no pudieron conectarse a DynamoDB. Esto incluía el tráfico de clientes, así como el tráfico de los servicios internos de AWS que dependen de DynamoDB.
El fallo de DynamoDB desencadenó problemas en cascada en la infraestructura de AWS, dejando el sistema DNS de DynamoDB en un estado inconsistente que la recuperación automática no pudo solucionar, requiriendo la intervención manual del operador.
Desde entonces, Amazon ha desactivado la automatización de DNS defectuosa a nivel global y ha tomado medidas para evitar problemas similares, como la incorporación de comprobaciones de protección, la mejora de los mecanismos de limitación y la creación de un conjunto de pruebas adicional para ayudar a detectar errores similares en el futuro.
“Lamentamos el impacto que este evento causó a nuestros clientes. Si bien contamos con una sólida trayectoria operando nuestros servicios con los más altos niveles de disponibilidad, sabemos lo cruciales que son para nuestros clientes, sus aplicaciones, usuarios finales y sus negocios. Sabemos que este evento afectó significativamente a muchos clientes. Haremos todo lo posible por aprender de él y aprovecharlo para mejorar aún más nuestra disponibilidad“, apuntó.







