Tecnología, Internet y juegos
72 meneos
253 clics
Un fallo de DNS puso a AWS de rodillas [ENG]

Un fallo de DNS puso a AWS de rodillas [ENG]

Amazon ha publicado un informe detallado que explica cómo una falla crítica en el sistema de administración de DNS de DynamoDB derivó en una interrupción que duró un día e interrumpió importantes sitios web y servicios de múltiples marcas, con estimaciones de daños que potencialmente podrían alcanzar cientos de miles de millones de dólares.

| etiquetas: amazon , aws , dns , dynamodb
51 21 0 K 209
51 21 0 K 209
El incidente comenzó a las 23:48 PDT del 19 de octubre (7:48 UTC del 20 de octubre), cuando los clientes informaron un aumento en la tasa de errores de la API de DynamoDB en la región US-EAST-1 del norte de Virginia. La causa principal fue una condición de carrera en el sistema automatizado de gestión de DNS de DynamoDB que dejó un registro DNS vacío para el punto final regional del servicio.

El sistema de gestión de DNS consta de dos componentes independientes (por razones de disponibilidad):…   » ver todo el comentario
Siempre son las DNS!
#3 Venia a decir esto. Ultimamente los fallos gordos que veo en estos servicios cloud son debidos a algun tema raro con las DNS. Debe ser un follon el tema de enrutamientos dinamicos de infraestructura.
¿Cómo es que no habian descubierto antes este bug en la infraestructura?
Descubrir la posibilidad de que este problema ocurriese para haberlo resuelto con antelacion.
¿No tienen suficientes personas o equipos dedicados a calidad y testing de todos los sistemas?
¿El fallo no seria ese en vez del de DNS descrito?
#4 todo usuario con experiencia sabe que us-east-1 es SPOF de toda la amazonia. Si eso cae, no existe.
Decidieron eso, y así funciona.
¿Funciona bien?, pues sí, en general. Pero cuando tienes un problema ahí se va todo el universo a hacer puñetas.
#4 tienen un equipo de calidad/testing.

Pero si el equipo es capaz de detectar el 99,999% de los casos. Te acabas de encontrar el caso 0,001%...
Algunos decían que no se explicaría.

Incluso se activarsn compensaciones por SLAs incumplidos.
#2
1 - La explicación es bastante basura. A algunos les valdrá esa explicación. A mí no. Pero es una guerra que ya sé que tengo perdida.
2 - Te voy a cumplir con un SLA garantizado que, ¡uy! esto no lo contempla.
#2 donde? A mi no me consta ninguna compensación.
Pues si esto os parece inaceptable o increíble, esperaos a que las IAs vayan tomando el control de estas infraestructuras prioritarias. Son básicamente cajas negras de las que esperas unos resultados que a veces no son los que debieran, así que el día que ocurra algo con alguna de ellas, no van a tener forma de saber en donde se originó la cagada... :tinfoil:  media
¿Por qué un cagadón en una región en un servicio no relacionado afecta a IAM en otro continente?

Porque IAM es una basura espectacular.

Todo servicio AWS "viejo" es un engendro. Los nuevos son "engendrados".
#6 La vieja coña de "la nube son servidores de otros" nunca tiene en cuenta que los programadores son "programadores de otros".

menéame