Как резервные системы могут снизить частоту отказов, если все они в основном одинаковы?
В классе системного анализа преподаватель говорил об избыточных системах. Она рассказала историю, в которой 3 независимые системы могли посадить самолет, и во время пробного запуска все 3 системы вышли из строя одновременно (каким-то образом пилоты все же успели приземлиться вручную). Я не понимаю, почему наличие избыточных систем поможет? Если система А не может взаимодействовать с шасси, то системы В и С тоже не могут, верно? Является ли идея избыточных систем "давайте надеяться, что в одной из них нет ошибки"? Если да, не будет ли слишком поздно, когда будет обнаружена ошибка (например, произошла ошибка первичной системы, поэтому переход на вторичную, о, подождите, пока самолет взорвался)?
Мне кажется, что избыточные системы - это все равно что сказать: "Вот один и тот же инструмент, созданный множеством разных способов, но если вам нужен другой инструмент, то вам не повезло".
1 ответ
Идентичные системы помогают предотвратить определенный класс отказов, а именно электронный или физический сбой в устройстве, если это недетерминированный сбой. Другими словами, если у вас есть 3 жестких диска в RAID-массиве 5, вы защищены от одного жесткого диска, имеющего сбой головок, но если два делают, это восстановление из времени резервного копирования. Головная поломка жесткого диска, отказ электроники и т. Д. - это такие ошибки, от которых такие вещи защищают.
От чего он не защищен, так это детерминированные сбои, вызванные программными ошибками во всех трех системах. Вернемся к вашему массиву RAID 5, если жесткие диски одинаковы и в контроллере есть ошибка, из-за которой головки записывают поврежденные данные на все три, то, что у вас есть три жестких диска с поврежденными данными, записанными на них, нет настоящий комфорт.
В качестве хорошего примера из реального мира здесь эскадрилья истребителей F22 летала с Гавайских островов в Японию, когда они пересекли международную линию датирования и столкнулись с проблемой плохой авионики. Видимо, из некоторых источников они потеряли инерциальную привязку, некоторые воздушные данные, некоторые связи, системы оружия - все. Программная ошибка, очевидно, не справилась с датой правильно и заблокировала все избыточные системы. Эскадрон должен был вернуться на базу и приземлиться без инструментов. Если бы погода была плохой, компьютерный сбой превратился бы в авиакатастрофу, хотя мы надеемся, что пилоты смогли бы катапультироваться.
Кроме того, у вас есть более сложные случаи отказов с избыточными системами, и людям, занимающимся поддержанием безопасности, зачастую сложнее устранять неполадки, когда что-то идет не так. Например, как обрабатывается сбой второй системы? Это вызвало террор и травмы как минимум в одном случае с самолетом. В этом случае сбой второго блока угла атаки (часть блока данных об инерциальных данных о воздухе) заставил систему использовать входные данные от первого неисправного датчика, что вызвало сначала неуправляемый подъем, а затем необработанный спад. Самолет приземлился благополучно, но это хороший повод пристегнуть ремни безопасности, когда он сидит в самолете!
Таким образом, как всегда, здесь есть компромисс между надежностью и способностью доказать изящную обработку всех возможных состояний отказа. В целом, в авиации это считается положительным компромиссом, но это не бесплатно.