Не удается выполнить резервное копирование на S3 с OpsCenter 5.2.1
Я обновил OpsCenter с 5.1.3 до 5.2.0 (а затем до 5.2.1). У меня было запланированное резервное копирование на локальный сервер и местоположение S3, настроенное перед обновлением, которое отлично работало с OpsCenter 5.1.3. Я не внес никаких изменений в запланированное резервное копирование во время или после обновления.
На следующий день после обновления произошла ошибка резервного копирования S3. В opscenterd.log я вижу эти ошибки:
2015-09-28 17:00:00+0000 [local] INFO: Instructing agents to start backups at Mon, 28 Sep 2015 17:00:00 +0000
2015-09-28 17:00:00+0000 [local] INFO: Scheduled job 458459d6-d038-41b4-9094-7d450e4bac6f finished
2015-09-28 17:00:00+0000 [local] INFO: Snapshots started on all nodes
2015-09-28 17:00:08+0000 [] WARN: Marking request d960ad7b-2ccd-40a4-be7e-8351ac038c53 as failed: {'sstables': {u'solr_admin': {u'solr_resources': {'total_size': 155313, 'total_files': 12, 'done_files': 0, 'errors': [u'{:type :opsagent.backups.destinations/destination-not-found, :message "Destination missing: 62f5a26abce7463bad9deb7380979c4a"}', u'{:type :opsagent.backups.destinations/destination-not-found, :message "Destination missing: 62f5a26abce7463bad9deb7380979c4a"}', u'{:type :opsagent.backups.destinations/destination-not-found, :message "Destination missing: 62f5a26abce7463bad9deb7380979c4a"}',
сокращено для краткости.
Местоположение S3 больше не отображается в OpsCenter при редактировании запланированного задания резервного копирования. Когда я пытаюсь повторно добавить местоположение S3, используя те же данные и данные, что и раньше, я получаю следующую ошибку:
Location validation error: Call to /local/backups/destination_validate timed out.
Кроме того, я не знаю, связано ли это с этим, но для полноты картины я вижу некоторые из этих ошибок в файле opscenterd.log:
WARN: No http agent exists for definition file update. This is likely due to SSL import failure.
Я получаю это поведение либо с DataStax Enterprise 4.5.1 или 4.7.3.
3 ответа
У меня возникла точно такая же проблема с момента обновления до OpsCenter 5.2.x, и я просто смог заставить его работать должным образом.
Я удалил все настройки, предложенные в предыдущем ответе, а затем создал новые группы в us-west-1, us-west-2 и us-standard. После этого я смог быстро и легко добавить все эти пункты назначения.
Мне кажется, что проблема в том, что OpsCenter, возможно, пытается перечислить объекты в корзине, которую вы настраиваете изначально, что в моем случае для двух существующих, которые мы использовали, содержало 11 ТБ и 19 ГБ данных в них соответственно.
Это может объяснить, почему увеличение времени ожидания для некоторых работает, а не для других.
Надеюсь это поможет.
Попробуйте добавить свойство remote_backup_region в файл конфигурации кластера под заголовком [агенты] в "имя-кластера".conf. Допустимые значения: us-standard, us-west-1, us-west-2, eu-west-1, ap-northeast-1, ap-юго-восток-1
Это помогает?
Проблема была решена с помощью комбинации двух вещей.
- Удалите все содержимое существующей корзины S3 (или создайте новую корзину, как ранее предлагалось @kaveh-nowroozi).
- редактировать
/etc/datastax-agent/datastax-agent-env.sh
и увеличьте размер кучи до 512M, как предложено инженером DataStax. По умолчанию было установлено значение 128M, и я продолжал удваивать его, пока резервные копии не стали успешными.