Не удается выполнить резервное копирование на S3 с OpsCenter 5.2.1

Я обновил OpsCenter с 5.1.3 до 5.2.0 (а затем до 5.2.1). У меня было запланированное резервное копирование на локальный сервер и местоположение S3, настроенное перед обновлением, которое отлично работало с OpsCenter 5.1.3. Я не внес никаких изменений в запланированное резервное копирование во время или после обновления.

На следующий день после обновления произошла ошибка резервного копирования S3. В opscenterd.log я вижу эти ошибки:

2015-09-28 17:00:00+0000 [local] INFO: Instructing agents to start backups at Mon, 28 Sep 2015 17:00:00 +0000 2015-09-28 17:00:00+0000 [local] INFO: Scheduled job 458459d6-d038-41b4-9094-7d450e4bac6f finished 2015-09-28 17:00:00+0000 [local] INFO: Snapshots started on all nodes 2015-09-28 17:00:08+0000 [] WARN: Marking request d960ad7b-2ccd-40a4-be7e-8351ac038c53 as failed: {'sstables': {u'solr_admin': {u'solr_resources': {'total_size': 155313, 'total_files': 12, 'done_files': 0, 'errors': [u'{:type :opsagent.backups.destinations/destination-not-found, :message "Destination missing: 62f5a26abce7463bad9deb7380979c4a"}', u'{:type :opsagent.backups.destinations/destination-not-found, :message "Destination missing: 62f5a26abce7463bad9deb7380979c4a"}', u'{:type :opsagent.backups.destinations/destination-not-found, :message "Destination missing: 62f5a26abce7463bad9deb7380979c4a"}', сокращено для краткости.

Местоположение S3 больше не отображается в OpsCenter при редактировании запланированного задания резервного копирования. Когда я пытаюсь повторно добавить местоположение S3, используя те же данные и данные, что и раньше, я получаю следующую ошибку:

Location validation error: Call to /local/backups/destination_validate timed out.

Кроме того, я не знаю, связано ли это с этим, но для полноты картины я вижу некоторые из этих ошибок в файле opscenterd.log:

WARN: No http agent exists for definition file update. This is likely due to SSL import failure.

Я получаю это поведение либо с DataStax Enterprise 4.5.1 или 4.7.3.

3 ответа

У меня возникла точно такая же проблема с момента обновления до OpsCenter 5.2.x, и я просто смог заставить его работать должным образом.

Я удалил все настройки, предложенные в предыдущем ответе, а затем создал новые группы в us-west-1, us-west-2 и us-standard. После этого я смог быстро и легко добавить все эти пункты назначения.

Мне кажется, что проблема в том, что OpsCenter, возможно, пытается перечислить объекты в корзине, которую вы настраиваете изначально, что в моем случае для двух существующих, которые мы использовали, содержало 11 ТБ и 19 ГБ данных в них соответственно.

Это может объяснить, почему увеличение времени ожидания для некоторых работает, а не для других.

Надеюсь это поможет.

Попробуйте добавить свойство remote_backup_region в файл конфигурации кластера под заголовком [агенты] в "имя-кластера".conf. Допустимые значения: us-standard, us-west-1, us-west-2, eu-west-1, ap-northeast-1, ap-юго-восток-1

Это помогает?

Проблема была решена с помощью комбинации двух вещей.

  1. Удалите все содержимое существующей корзины S3 (или создайте новую корзину, как ранее предлагалось @kaveh-nowroozi).
  2. редактировать /etc/datastax-agent/datastax-agent-env.sh и увеличьте размер кучи до 512M, как предложено инженером DataStax. По умолчанию было установлено значение 128M, и я продолжал удваивать его, пока резервные копии не стали успешными.
Другие вопросы по тегам