Описание тега fault-tolerance

Fault tolerance refers to a system's capability to isolate, compensate for and recover from failure with minimal impact to the end user. When using this tag - include tags indicating the system and/or technology you are working with (as additional support meta-data).
2 ответа

Поддерживает ли Apache Helix разделение и объединение разделов?

Я понимаю, что Apache Helix позволяет динамическое расширение / сжатие кластера (например, добавление / отказ / удаление физических узлов). Однако в случае, если один физический узел не может обработать одну реплику раздела, мне нужно разделить разд…
1 ответ

Автоматическое переподключение к кластеру RabbitMQ после перезапуска сервера

У меня есть конфигурация ведущий-ведомый RabbitMQ. Как два контейнера Docker, с динамическим внутренним IP (изменяется при каждом перезапуске). Кластеризация работает нормально при чистом запуске, но если один из серверов был перезапущен, он не може…
1 ответ

Как получить точную точку выполнения в приложении Java?

Я хочу, чтобы в работающем Java-приложении была получена точная точка выполнения или строка запуска кода. Я исследую некоторые отказоустойчивые подходы и пытаюсь реализовать некоторые решения. Я сериализую объект Thread в файл и принудительно заверш…
3 ответа

Отказоустойчивый file_get_contents

У меня есть веб-сайт со следующей архитектурой: End user ---> Server A (PHP) ---> Server B (ASP.NET & Database) web file_get_contents browser Сервер A - это простой веб-сервер, в основном обслуживающий статические HTML-страницы. Тем не мен…
22 фев '12 в 15:06
4 ответа

Что делать, если лидер терпит неудачу в Multi-Paxos для систем master-slave?

Backgound: В разделе 3, озаглавленном "Реализация конечного автомата", из бумаги Лампорта " Paxos Made Simple, Multi-Paxos". Multi-Paxos используется в Google Paxos Made Live. (Multi- Paxos используется в Apache ZooKeeper ). В Multi-Paxos могут появ…
3 ответа

Являются ли сообщения Erlang/OTP надежными? Можно ли дублировать сообщения?

Длинная версия: Я новичок в Erlang и рассматриваю возможность его использования для масштабируемой архитектуры. Я нашел много сторонников платформы, рекламирующих ее надежность и отказоустойчивость. Однако я изо всех сил пытаюсь понять, как именно д…
2 ответа

.NET Отказоустойчивый StateServer

Мы используем StateServer для обработки сеанса с известными преимуществами (веб-ферма, переработка IIS). Однако я пытаюсь выяснить, как сделать эту отказоустойчивой. Ничто из того, что мы храним на Сессии, не является критичным, оно просто используе…
4 ответа

Как супервизор контролирует процессы? Можно ли сделать то же самое на JVM?

Отказоустойчивость Erlang (насколько я понимаю) включает использование процессов супервизора для наблюдения за рабочими процессами, поэтому, если работник умирает, супервизор может запустить новый. Как Erlang осуществляет этот мониторинг, особенно в…
19 июл '09 в 04:12
0 ответов

Отказоустойчивость в Apache Sqoop

Я хочу запускать инкрементную ночную работу, которая извлекает 100 ГБ данных из Oracle DataWarehouse в HDFS. После обработки результаты (несколько ГБ) необходимо экспортировать обратно в Oracle. Мы запускаем Hadoop в Amazon AWS, и наше хранилище дан…
27 мар '15 в 10:39
1 ответ

Преимущество Erlang для совместной работы в реальном времени

Я пытаюсь создать приложение для редактирования документов и чата в реальном времени. Я давно хотел выучить Erlang, и мне было интересно, может ли это быть хорошим проектом, чтобы опробовать его. В частности, в какой момент я начну видеть преимущест…
29 авг '12 в 03:46
1 ответ

Как исчерпывается память в Erlang?

С философией Erlang "пусть это рушится" можно было бы ожидать, что вся ВМ не рухнет, если процесс не сможет выделить память, необходимую для продолжения своих операций; действительно, если бы в системе была эвристика для уничтожения какого-либо проц…
20 июн '12 в 03:01
1 ответ

Служебный стек Redis восстанавливает соединение после перезагрузки сервера Redis

Мы используем BlockingDequeue стека RedisClient из Service Stack, чтобы сохранить некоторые данные до тех пор, пока они не будут обработаны. Код вызова выглядит так using (var client = ClientPool.GetClient()) return client.As<TMessage>().Lists…
13 дек '13 в 16:14
1 ответ

Мне обязательно нужно минимум 3 узла / сервера для кластера Cassandra или будет достаточно 2?

Конечно, можно запустить кластер с одним узлом, но мне нужен некоторый уровень отказоустойчивости. В настоящее время я могу позволить себе арендовать два сервера (8 ГБ ОЗУ, частный VLAN @1GigE), но не 3. Насколько я понимаю, 3 узла - это минимум, не…
24 фев '10 в 23:47
1 ответ

Возможные тесты отказоустойчивости VMware

Я думал о том, как я могу проверить свои машины с отказоустойчивостью. Но я не могу прийти с надлежащим тестом. Как я могу вычислить время, необходимое VMware для переключения с основной виртуальной машины на дополнительную?
16 июн '17 в 12:06
0 ответов

Отказоустойчивая система хранения

В книге обработки транзакций Джима Грея, глава 3.7.2.2, он описал тип отказа системы хранения, который записывает ошибку, ничего не делая, но все же возвращает результат успеха вызывающей стороне. По сути, это означает, что ядро ​​+ аппаратный диск …
1 ответ

Обнаружить остановленный серверный процесс через rpyc.Connection

Предположим, у меня есть служба: import rpyc class MyService(rpyc.Service): my_dict = {} def exposed_put(self, key, val): MyService.my_dict[key] = val def exposed_get(self, key): return MyService.my_dict[key] def exposed_delete(self, key): del MySer…
19 дек '15 в 19:29
1 ответ

Реализация отказоустойчивости в распределенных очередях сообщений

Предположим на рисунке ниже, что средняя очередь сообщений не работает. Отправители могут по-прежнему получать сообщения, отправленные с использованием других очередей сообщений. Но что произойдет, если очередь сообщений умрет после получения сообще…
3 ответа

Длинный запрос для тестирования

Я пытаюсь некоторую отказоустойчивость и в приложении, и кто-нибудь знает о долгом выполнении запроса с использованием таблиц mysql по умолчанию? Идея состоит в том, чтобы запустить этот запрос, завершить работу mysqld, чтобы увидеть, обнаруживает л…
23 июн '13 в 17:56
1 ответ

Восстановление после сбоя сервера HBase с помощью клиента Async HBase

В настоящее время я пытаюсь найти способ справиться с неожиданными сбоями HBase в моем приложении. Более конкретно, что я пытаюсь решить, это случай, когда мое приложение вставляет данные в HBase, а затем HBase дает сбой и перезапускается. Чтобы про…
29 май '16 в 13:38
0 ответов

Техника проверки отказоустойчивости контрольной точки периодически регистрирует состояние системы после определенного периода времени? или после определенного лимита обработки?

Проверьте правильность отказоустойчивой техники, периодически регистрируйте состояние системы после определенного временного ограничения? или после определенного лимита обработки? Если он хранится после определенного срока, то какой лимит подходит д…
05 апр '18 в 04:47