Модуль Rook OSD при аварийном завершении аварийного завершения после переполнения диска

Я сделал небольшой кластер с ладьей 1.4.4 для тестирования с 3 узлами с 1 OSD 20G на узел. Я развертываю кластер по настройкам: databaseSizeMB и journalSizeMB, как указано. Затем я создаю реплицированный пул и устанавливаю targetizeratio 95% . Развертывание прошло успешно. Затем я провел тест, заполнив реплицированный пул, и все закончилось плохо. Модуль 3 OSD аварийно завершает работу и не может запуститься, и в журнале указано следующее:

debug 2020-10-06T07:38:30.108+0000 7f8e0c5a2700 -1 bluestore(/var/lib/ceph/osd/ceph-0) _do_alloc_write failed to allocate 0x10000 allocated 0x 0 min_alloc_size 0x10000 available 0x 0
debug 2020-10-06T07:38:30.108+0000 7f8e0c5a2700 -1 bluestore(/var/lib/ceph/osd/ceph-0) _do_write _do_alloc_write failed with (28) No space left on device
debug 2020-10-06T07:38:30.108+0000 7f8e0c5a2700 -1 bluestore(/var/lib/ceph/osd/ceph-0) _txc_add_transaction error (28) No space left on device not handled on operation 10 (op 2, counting from 0)
debug 2020-10-06T07:38:30.108+0000 7f8e0c5a2700 -1 bluestore(/var/lib/ceph/osd/ceph-0) ENOSPC from bluestore, misconfigured cluster

Похоже, что не осталось места для метаданных, нельзя записать. Это тестовый кластер, поэтому я могу легко его сбросить, но я не хочу сталкиваться с этой проблемой в моем производственном кластере. Как лучше всего этого избежать?

0 ответов

Другие вопросы по тегам