Hace 4 años | Por senfet a zdnet.com
Publicado hace 4 años por senfet a zdnet.com

Microsoft reveló que tomó 5 horas reconocer las interrupciones prolongadas porque la tarea de informar a los clientes dependía de un administrador de incidentes con sede en los EE. UU. que estaba dormido en ese momento. Los retrasos afectaron a los clientes en Europa y el Reino Unido durante tres días. El problema fue causado por las limitaciones de capacidad de la máquina virtual debido a un aumento en la demanda de recursos durante la pandemia de COVID-19, que resultó en retrasos de 21 minutos que afectaron el servicio DevOps Pipelines.

Comentarios

sorrillo

Tanta redundancia para que al final todo dependa de que una única persona pulse un botón.

eldarel

#1 La maldición de la eficiencia óptima.
Siempre hay un punto de fallo.

JungSpinoza

#1 El problema no es que alguien se quede dormido, sino que el process de "incident management" fallase escalar este problema. Por eso hace falta hacer "game days" y "chaos engineering" a nivel de procesos no solo del sistema

Cuando yo trabajaba en AWS, sino aceptaba una incidencia en cuestion de minutos saltaba a mi manager, y asi hacia arriba. Lo he visto escalar hasta un L10

senfet

Asleep at the wheel: Why did it take 5 HOURS for Microsoft to acknowledge an Azure DevOps TITSUP*?: https://www.theregister.co.uk/2020/04/08/azure_devops_outage/

Cidwel

Llegué un poco tarde al curro,
¡por ocho horas de nada!
Entraba yo por la puerta y ya estaban todos de desbandada todos de desbandada todos de desbandada .

D

Microsoft está teniendo problemas porque ha vendido más servicio que hardware tiene disponible para soportar ese servicio. Lo jodido es que tiene compromisos de disponibilidad firmados por contrato que no se están cumpliendo, y contratos por los que cobra un buen dinero.

D

La famosa IA, al final hay un tipo detrás del chatbot.

D

era un andaluz?

a

El titular es engañoso, da la impresión de que el trabajador se habría quedado dormido en el trabajo, cuando simplemente era de madrugada en sus oficinas y la gente no estaba trabajando, lo mismo pasa en fin de semana que las reparaciones y problemas tienden a resolverse en más tiempo (eso si llegan a resolverse y no hay que esperar al lunes).

comadrejo

#4 Instalación critica 24x7 sin administración y/o primer nivel 24x7. ¿Que puede salir mal?

a

#10 Crítica para quien ? Si alguien relega sus datos y operativa en empresas de otros países, países tan hostiles que incluso plasman en sus leyes la posibilidad de invadir tu pais, pues que quieres que te diga, tan importantes no serian esos datos y operativa.