Сообщения сторожевого пса NMI, т.е. "Выключение детектора жесткого блокировки на всех процессорах"

Когда сторожевой таймер NMI "отключен", он все еще болтит.

Кто-нибудь знает, где живут документы для этих сообщений? Я бы хотел посмотреть, что на самом деле происходит.

Например, проверено, что он отключен:

 $ cat /proc/sys/kernel/nmi_watchdog
0

ЕЩЕ, мы все еще видим такие сообщения при выключении или загрузке:

$ journalctl -xn 100000  | grep "NMI watchdog"
Oct 23 14:29:31 hostname-us kernel: NMI watchdog: disabled (cpu0): hardware events not enabled
Oct 23 14:29:31 hostname-us kernel: NMI watchdog: Shutting down hard lockup detector on all cpus

Теперь я знаю, что это не СБРОС, это что-то еще, и я хотел бы получить документированный ответ, а не лучшее предположение.

Пробовал просматривать kernel.org и debian.org, страницы руководства безуспешно, только заархивированные страницы bugzilla.

Мы хотели бы знать, что на самом деле означают эти сообщения, а не делать предположения. Кто-нибудь знает где живет кольцо декодера?

1 ответ

С http://slacksite.com/slackware/nmi.html

Сторожевой таймер NMI - это своего рода обработчик событий таймера, он проверяет регистр счетчика прерываний Local APIC или IO-APIC, когда он вызывается при каждом событии локального таймера каждого CPU. Вообще говоря, могут быть сотни устройств, и прерывания по таймеру принимаются в секунду. Если в течение 5 секунд не поступают прерывания, сторожевой таймер NMI предполагает, что система зависла, и инициирует панику ядра. Это очень полезно, когда вам нужны данные для исследования проблемы, но иногда это может иметь такие нежелательные последствия.

Должен был знать, что это не точное совпадение, но смог наконец найти его на kernel.org

https://www.kernel.org/doc/html/latest/admin-guide/sysctl/kernel.html

Другие вопросы по тегам