Что может вызвать ошибки EDAC без сообщения о них или без реальных ошибок ECC?
У меня есть ZynqU+, который я построил, и на котором я использую встроенный Linux. Все загружается нормально, и сначала работает нормально. Одна проблема заключается в том, что я вижу в/sys/devices/system/edac/mc/mc0/
увеличивается до 13 (равно 0) каждый раз, когда я загружаю плату. В dmesg или системном журнале нет сообщений EDAC, в которых упоминается обнаружение неисправимой ошибки и исследование регистров модуля DDR zynqs (https://www.xilinx.com/htmldocs/registers/ug1087/ug1087-zynq-ultrascale-registers.html поиск «Модуль DDRC»), регистры состояния, содержащие счетчики CE и UE, равны 0 вместе со всеми связанными регистрами.
Кроме того, если я нагружу систему кучей постоянных операций чтения/записи только во временную папку, я в конечном итоге (10-30 минут) увижу ошибки EDAC, распечатываемые на консоли. За этим часто следует паника ядра, но если система не паникует, исследуя предыдущие местоположения выше, я могу увидеть свойce_count
, увеличились, в системном журнале теперь есть сообщения об ошибках EDAC, а регистры модуля Zynq DDRC содержат значения там, где раньше они были 0 (интересно, что это не регистр счетчика CE & UE, который остается 0, возможно, EDAC очищает его после сообщения об этом?)
Я протестировал эту сборку на полудюжине разных плат, и все они показывают одинаковое поведение. Мне трудно поверить, что эти ошибки ECC реальны из-за этого, но я не совсем уверен, какое другое объяснение может быть. Может быть, я что-то не так настроил в линуксе?
13ue_count
при загрузке меня действительно озадачивает, как EDAC может увеличивать это, не сообщая об ошибках, как он может увеличивать это, в то время как зарегистрированный модуль zynq также не содержит никаких признаков активности ECC?
Любые советы о том, что нужно проверить, о диагностике, опыте с ошибками ECC или о чем-либо действительно были бы полезны, так как я в основном не понимаю эту проблему.