El pasado año el blog de Netflix escribió un artículo sobre "Las cinco lecciones aprendidas al migrar a Amazon". Una de las más llamativas es la implementación de un sistema llamado Chaos Monkey (Mono del caos). El objetivo del Chaos Monkeys es matar instancias y servicios propios de manera aleatoria. ¿Con qué objetivo? Con el objetivo de comprobar que Netflix es capaz de seguir funcionando a pesar de posibles caídas del sistema. La mejor manera de ser resistente a fallos, es provocarlos continuamente.
Comentarios
Me estoy imaginando al jefe de sistemas: Bueno señores, tiene ustedes que implementar un proceso que vaya provocando fallos y caídas de servidores en producción de manera aleatoria y sin posibilidad de anticiparnos a ellos.
La cara de los de sistemas serían pa verlas