Cloudflare aseguró que la reciente interrupción del servicio 1.1.1.1 Resolver se debió a una configuración interna incorrecta y rechazó que se haya tratado de un ciberataque o un secuestro de BGP.
Para disipar las especulaciones —surgidas principalmente en redes sociales—, la firma de ciberseguridad publicó un análisis retrospectivo en el que profundizó sobre el error y explicó las acciones que realizó para garantizar que no se repita.
La falla se produjo el pasado lunes 14 de julio y afectó a la mayoría de los usuarios del servicio en todo el mundo, dejando las conexiones de internet indisponibles en muchos casos.
“Cloudflare implementó un cambio en la topología de sus servicios que provocó una interrupción de la versión 1.1.1.1 en el borde, lo que resultó en un tiempo de inactividad de 62 minutos para los clientes que utilizan el DNS público 1.1.1.1 Resolver, así como una degradación intermitente del servicio para Gateway DNS”, detalló en la publicación de blog.
El DNS público 1.1.1.1 Resolver de Cloudflare se lanzó en 2018, prometiendo un servicio de conectividad a internet privado y rápido para usuarios de todo el mundo.
Índice de temas
Cloudflare niega secuestro BGP
La explicación de Cloudflare surge después de que se informara en redes sociales que la interrupción se debió a un secuestro de BGP.
De acuerdo con la compañía, este se produce cuando los atacantes redirigen con fines maliciosos el tráfico de internet. Los hackers lo consiguen al declarar de forma falsa que son los propietarios de grupos de direcciones IP, llamados prefijos IP, de los que en realidad no son propietarios, ni controlan ni enrutan.
La compañía detalló que la interrupción se debió a un cambio de configuración para una futura Suite de Localización de Datos (DLS), realizado el pasado 6 de junio, que vinculó por error los prefijos IP del 1.1.1.1 Resolver a un servicio DLS no productivo.
Crónica de la falla
El 14 de julio, a las 15:48 (tiempo de México), una nueva actualización añadió una ubicación de prueba al servicio DLS inactivo, actualizando la configuración de red globalmente y aplicando la configuración incorrecta.
Esto retiró los prefijos del 1.1.1.1 Resolver de los centros de datos de producción de Cloudflare y los enrutó a una única ubicación sin conexión, lo que hizo que el servicio fuera inaccesible a nivel mundial.
Menos de cuatro minutos después, el tráfico DNS al servicio comenzó a disminuir. A las 16:01, Cloudflare detectó el incidente y lo reconoció públicamente.
La configuración incorrecta se revirtió a las 16:20 y Cloudflare comenzó a publicar nuevamente los prefijos BGP retirados.
Finalmente, el servicio se restableció por completo en todas las ubicaciones a las 16:54 horas.
El incidente afectó a varios rangos de IP, incluyendo 1.1.1.1 (DNS público principal Resolver), 1.0.0.1 (DNS público secundario Resolver), 2606:4700:4700::1111 y 2606:4700:4700::1001 (DNS IPv6 Resolver principal y secundario), y varios rangos de IP que admiten el enrutamiento dentro de la infraestructura de Cloudflare.
En cuanto al impacto del incidente en los protocolos, las consultas UDP, TCP y DNS sobre TLS (DoT) a las direcciones mencionadas experimentaron una caída significativa en el volumen, pero el tráfico DNS sobre HTTPS (DoH) no se vio afectado en gran medida, ya que sigue un enrutamiento diferente a través de cloudflare-dns.com.
Próximos pasos
La configuración incorrecta podría haberse rechazado si Cloudflare hubiera utilizado un sistema con implementación progresiva, admite el gigante de internet, atribuyendo este fallo al uso de sistemas heredados.
Por esta razón, planea descontinuar los sistemas heredados y la migración a sistemas de configuración más nuevos que utilizan topologías de servicio abstractas en lugar de enlaces IP estáticos permiten una implementación gradual, la monitorización del estado en cada etapa y reversiones rápidas en caso de problemas.
Cloudflare también señala que la configuración incorrecta había superado la revisión por pares y no se detectó debido a la documentación interna insuficiente de las topologías de servicio y el comportamiento del enrutamiento, un aspecto que la empresa también planea mejorar.