NVIDIA DevBox с универсальным ядром Ubuntu 16.04 и 4.4.0-137 случайным образом перезагружается и автоматически выключается в одночасье

Я недавно заявил, что использую NVIDIA DevBox с ASUS BIOS, с упомянутой выше версией ядра и версии Ubuntu. По некоторым причинам машина не может быть оставлена ​​включенной на ночь, как это обычно бывает на других ноутбуках и / или компьютерных машинах: если вы можете просто оставить ее включенной, она заблокируется через пару минут и / или перейдет в спящий режим - и на следующий день, когда вы перемещаете мышь или что-то печатаете на клавиатуре, компьютер "перестает работать" или "просыпается", и все ваши программы работают и работают так же, как вы оставили их в предыдущий день.

По какой-то странной причине этого не произошло с этой машиной. До меня был предыдущий пользователь, который не прикасался к машине около года, поэтому возможно, что он или она выполнили какую-то настройку в отношении экономии энергии, но все выглядит хорошо, когда я проверяю вариант питания в моей машине (у меня это для приостановки - 1 час, и блокировка 1 час). Полагаю, самое забавное, что я заметил, это то, что если я вернусь после обеда и машина заблокирована / приостановлена, она вернется к работе без проблем, но если я оставлю ее на ночь, то приеду на следующий день, и Машина автоматически отключилась. Здание заблокировано, поэтому кто-то еще не может физически нажать кнопку выключения в одночасье, и я также проверил команду истории от другого пользователя (у нас обоих есть права администратора, и он не использует компьютер), чтобы проверьте на отключение удаленного доступа, и это тоже не всплывает.

Я читал в нескольких местах, что это может быть проблема с отоплением из-за плохого или сломанного источника питания, но как я могу убедиться, что это так? У меня есть приложение psensor, но оно, похоже, регистрирует температуры только в режиме реального времени, не сохраняя их в файл, где я могу проверить, какая температура была у любой из видеокарт (их 4) или материнской платы.

Как еще можно диагностировать автоматическое отключение машины? Как я могу узнать, является ли это проблемой с отоплением или неисправным источником питания? Или, возможно, проблема с ядром? На данный момент на машине не установлены настоящие интенсивные программы (она почти новая), за исключением драйверов NVIDIA, с которыми у меня достаточно опыта установки, так что, может быть, я могу рассмотреть вопрос о новой установке Ubuntu? - хотя это в значительной степени бессмысленно, если есть проблема с оборудованием

Другие детали:

Драйверы NVIDIA установлены правильно. Водитель получил ошибку, и машина отреагировала довольно плохо, когда я ввел следующую команду, и машина была включена в течение 2 дней подряд (что должно быть бризом для этих машин), пока она не начала работать более 5 минут после 2 случайных случайных перезагрузки посреди ночи:

$ unset autologoff

Позже мне пришлось правильно переустановить драйверы (и снова включить опцию autolog), и система вернулась в свое текущее состояние, где ей "нужно" отключиться, если она не делает ничего более 24 часов (ничего не делает) так как в нем не принимается человеческий вклад, но бэкэнд-процессы могут все еще работать).

  • Материнская плата: ASUS EATX DDR4 LGA 2011-3 Материнские платы X99-E WS/USB 3.1
  • Процессор: Intel Xeon E5-2690 v4 2,6 ГГц 14-ядерный процессор LGA 2011, 135 Вт
  • Кулер: Corsair Hydro Series H80i v2 Extreme Performance Жидкий кулер для процессора, черный.
  • Источник питания: EVGA SuperNOVA 1600 P2 80+ PLATINUM, 1600 Вт ECO Mode Полностью модульный NVIDIA SLI и Crossfire Ready 10-летняя гарантия Источник питания 220-P2-1600-X1
  • Видеокарта: 4 Titan X Pascal.

Я добавил pci=noaer при загрузке после обнаружения, что машина выдала мне эту ошибку: https://askubuntu.com/questions/771899/pcie-bus-error-severity-corrected

Выход:

$ cat /proc/cmdline

является

BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7

1 ответ

Решение

Проблема была исправлена ​​загрузкой системы в Ubuntu 18.04. Корень ошибки не был найден, но я подозреваю, что это связано с тем, что ядро ​​потенциально не очень подходит для видеокарт, BIOS и версии Ubuntu 16.04.

Другие вопросы по тегам