Download PDF
Download page Зависает ОС.
Зависает ОС
Проблема
В произвольный момент зависает ОС. Доступ по сети невозможен.
Диагностика
- Проверить:
- модель процессора в
cpuinfo; в файле
kern.logналичие сообщения вида:perf: interrupt took too long (2511 > 2500), lowering kernel.perf_event_max_sample_rate to 79500
Данное сообщение информационное, но может приводить к зависанию.
- модель процессора в
Возможная причина: Bay Trail (Intel(R) Celeron(R) CPU J1900) не поддерживает состояние ожидания. Перейти к решению.
- Проверить, что в файле
/var/log/messagesили/var/log/kern.logприсутствуют записи вида:[drm] ERROR Atomic update failure on pipe C (start=4290273 end=4290274) time 12 us, min 1192, max 1199, scanline start 1188, end 1199
Возможная причина: Аппаратный сбой функций энергосбережения ЦПУ фирмы Intel. Перейти к решению.
- Проверить, что в ядре загружены внештатные (out-of-tree) или неподписанные модули:
lsmod | awk 'NR>1{print $1}' | \ while read m; do f=$(modinfo -n "$m"); case "$f" in */updates/*|*/extra/*|*/weak-updates/*|*/misc/*) echo "OOT $m $f";; esac done - При загрузке системы проверить сообщения о подписи /
taint:Ожидаемый вывод:journalctl -k -b | egrep -i 'taint|module verification failed|unsigned' dmesg | egrep -i 'taint|verification'
module verification failed: signature and/or required key missing — tainting kernel <имя_модуля>
Возможная причина: Внештатные или неподписанные модули. Перейти к решению.
- Проверить наличие сообщений вида:
Oct 15 15:55:31 server kernel: piix4_smbus 0000:00:07.3: SMBus Host Controller not enabled! Oct 15 15:55:59 server auditd[530]: Error receiving audit netlink packet (No buffer space available) Oct 15 16:07:25 server klnagent[565]: Failed to collect hardware inventory info: Command 'lshw -class network' cannot be found (5B4B4C4857494E565D2070726F647563742F6F736D702F6B73632F6465762F6E6167656E742F6877696E762F6877696E765F636F6C6C6563746F722E63707040363331) Oct 15 16:07:25 server klnagent[565]: Failed to collect hardware inventory info: Command 'lshw -class disk' cannot be found (5B4B4C4857494E565D2070726F647563742F6F736D702F6B73632F6465762F6E6167656E742F6877696E762F6877696E765F636F6C6C6563746F722E63707040363331) Oct 15 16:07:25 server klnagent[565]: Failed to collect hardware inventory info: Command 'lshw -class disk' cannot be found (5B4B4C4857494E565D2070726F647563742F6F736D702F6B73632F6465762F6E6167656E742F6877696E762F6877696E765F636F6C6C6563746F722E63707040363331)
Возможная причина: Многочисленные сообщения от auditd. Перейти к решению.
- На контроллере домена (ALDPro или FreeIPA) отключить политики, которые доставляются на клиентские ПК или серверы. Отключить службу
salt-minionс помощью команды:и проверить стабильность работы системы.sudo systemctl mask --now salt-minion
Дополнительно выполнить установку
atopиз состава расширенного репозитория для сбора метрик:и проследить за поведением системы.sudo apt install atop
Возможная причина: Некорректная конфигурация политик установки стороннего ПО. Перейти к решению.
- Проверить на предмет зависаний при установке ОС на этапе "Поиск и монтирование CD-ROM".
- Проверить на предмет зависаний ОС через 10-15 секунд после загрузки.
Возможная причина: Отсутствие поддержки SSD WD Blue SN5x0. Перейти к решению.
- Проверить параметры управления питанием на уровне ядра ОС.
Возможная причина: Проблемы с функциями управления питанием. Перейти к решению.
- Зависание происходит в момент длительного бездействия системы.
- В ПК используется ЦПУ AMD.
Возможная причина: Снижения тактовой частоты процессора. Перейти к решению.
- Проверить актуальность прошивок для аппаратной части оборудования.
Возможная причина: Устаревшие версии прошивок BIOS и RAID. Перейти к решению.