Проблема

В произвольный момент зависает ОС. Доступ по сети невозможен.

Диагностика

  • Проверить:
    • модель процессора в cpuinfo;
    • в файле kern.log наличие сообщения вида:

      perf: interrupt took too long (2511 > 2500), lowering kernel.perf_event_max_sample_rate to 79500

      Данное сообщение информационное, но может приводить к зависанию.

Возможная причина: Bay Trail (Intel(R) Celeron(R) CPU J1900) не поддерживает состояние ожидания. Перейти к решению.


  • Проверить, что в файле /var/log/messages или /var/log/kern.log присутствуют записи вида:
    [drm] ERROR Atomic update failure on pipe C (start=4290273 end=4290274) time 12 us, min 1192, max 1199, scanline start 1188, end 1199

Возможная причина: Аппаратный сбой функций энергосбережения ЦПУ фирмы Intel. Перейти к решению.


  • Проверить, что в ядре загружены внештатные (out-of-tree) или неподписанные модули:
    lsmod | awk 'NR>1{print $1}' | \
    while read m; do
      f=$(modinfo -n "$m"); case "$f" in
        */updates/*|*/extra/*|*/weak-updates/*|*/misc/*) echo "OOT $m $f";;
      esac
    done
  • При загрузке системы проверить сообщения о подписи / taint:
    journalctl -k -b | egrep -i 'taint|module verification failed|unsigned'
    dmesg | egrep -i 'taint|verification'
    Ожидаемый вывод:
    module verification failed: signature and/or required key missing — tainting kernel <имя_модуля>

Возможная причина: Внештатные или неподписанные модули. Перейти к решению.


  • Проверить наличие сообщений вида:
    Oct 15 15:55:31 server kernel: piix4_smbus 0000:00:07.3: SMBus Host Controller not enabled!
    Oct 15 15:55:59 server auditd[530]: Error receiving audit netlink packet (No buffer space available)
    Oct 15 16:07:25 server klnagent[565]: Failed to collect hardware inventory info: Command 'lshw -class network' cannot be found    (5B4B4C4857494E565D2070726F647563742F6F736D702F6B73632F6465762F6E6167656E742F6877696E762F6877696E765F636F6C6C6563746F722E63707040363331)
    Oct 15 16:07:25 server klnagent[565]: Failed to collect hardware inventory info: Command 'lshw -class disk' cannot be found    (5B4B4C4857494E565D2070726F647563742F6F736D702F6B73632F6465762F6E6167656E742F6877696E762F6877696E765F636F6C6C6563746F722E63707040363331)
    Oct 15 16:07:25 server klnagent[565]: Failed to collect hardware inventory info: Command 'lshw -class disk' cannot be found    (5B4B4C4857494E565D2070726F647563742F6F736D702F6B73632F6465762F6E6167656E742F6877696E762F6877696E765F636F6C6C6563746F722E63707040363331)  

Возможная причина: Многочисленные сообщения от auditd. Перейти к решению.


  • На контроллере домена (ALDPro или FreeIPA) отключить политики, которые доставляются на клиентские ПК или серверы. Отключить службу salt-minion с помощью команды:
    sudo systemctl mask --now salt-minion
    и проверить стабильность работы системы.
  • Дополнительно выполнить установку atop из состава расширенного репозитория для сбора метрик:

    sudo apt install atop
    и проследить за поведением системы.

Возможная причина: Некорректная конфигурация политик установки стороннего ПО. Перейти к решению.


  • Проверить на предмет зависаний при установке ОС на этапе "Поиск и монтирование CD-ROM".
  • Проверить на предмет зависаний ОС через 10-15 секунд после загрузки.

Возможная причина: Отсутствие поддержки SSD WD Blue SN5x0. Перейти к решению.


  • Проверить параметры управления питанием на уровне ядра ОС.

Возможная причина: Проблемы с функциями управления питанием. Перейти к решению.


  • Зависание происходит в момент длительного бездействия системы.
  • В ПК используется ЦПУ AMD.

Возможная причина: Снижения тактовой частоты процессора. Перейти к решению.


  • Проверить актуальность прошивок для аппаратной части оборудования.

Возможная причина: Устаревшие версии прошивок BIOS и RAID. Перейти к решению.


Возможные причины