Однажды ты просыпаешься фараоном Четвёртой династии. Положение обязывает — надо вставать и строить памятник размером с твоё тщеславие.
Расчёты на папирусе показывают, что на стройку потребуется порядка 100 миллионов человеко-часов. Хочется закончить проект за разумное время, лет 20-30. Понятно, что на таких масштабах многое может пойти не так. Поэтому нужна отказоустойчивая распределенная система.

Контринтуитивная идея таких систем состоит в том, что из ненадежных частей можно собрать надёжное целое. Если действовать по теории, для этого нужно, чтобы вероятности выхода частей из строя были независимы. На практике это превращается в то, что не должно быть единых точек отказа + отказы не должны провоцировать цепную реакцию.
Единая точка отказа — это когда каменщики пьют из одного колодца. Цепная реакция — это когда одна из бригад забирает весь запас белого известняка для срочного ремонта → фасадные работы останавливаются → фараон гневается → требуется срочный демонтаж уже уложенных блоков → задержки строительства.
Хорошо, что декомпозицию систем, а также репликацию, избыточность, graceful degradation изобрели давно. Также хорошо, что нынче это встречается настолько повсеместно, что перешло в разряд «естественно, как же без этого».