ПроблемаLink to Проблема

Часть узлов Ceph в кластере находится в состоянии down, работа кластера нарушена.

ДиагностикаLink to Диагностика

  • Проверить:
    • работу автоматической синхронизации времени между серверами:
      • ceph:
        sudo ceph -s
        вывод команды:
        ...
        clock skew detected on node02 
        ...

      • ntp:

        sudo ntpq -c sysinfo

        associd=0 status=c618 leap_alarm, sync_ntp, 1 event, no_sys_peer,
        system peer:        ntp3.vniiftri.ru:123
        system peer mode:   client
        leap indicator:     11
        stratum:            2
        log2 precision:     -24
        root delay:         52.311
        root dispersion:    64.292
        reference ID:       89.109.251.23
        reference time:     eb387851.d9c507b4  Mon, Jan 20 2025 10:22:57.850
        system jitter:      0.798322
        clock jitter:       0.169
        clock wander:       0.000
        broadcast delay:    -50.000
        symm. auth. delay:  0.000


      • chrony:

        sudo chronyc tracking
        Reference ID    : 596DFB18 (ntp4.vniiftri.ru)
        Stratum         : 2
        Ref time (UTC)  : Mon Jan 20 07:16:12 2025
        System time     : 0.002600910 seconds fast of NTP time
        Last offset     : +0.004616632 seconds
        RMS offset      : 0.005930303 seconds
        Frequency       : 14.932 ppm slow
        Residual freq   : -0.000 ppm
        Skew            : 17.281 ppm
        Root delay      : 0.053384144 seconds
        Root dispersion : 0.001329926 seconds
        Update interval : 64.5 seconds
        Leap status     : Normal


    • лог-файлы /var/log/ceph/ceph.log с узлов в состоянии down:
      ...
      mon.node02 (mon.0) 438945 : cluster [WRN] 2 clock skew 8.1533s > max 0.05s
      ...

Возможная причина: Между узлами кластера Ceph нарушена синхронизация времени. Перейти к решению.


  • Проверить:
    • работу автоматической синхронизации времени между серверами:
      • ceph:
        sudo ceph -s
        вывод команды:
        ...
        clock skew detected on node02 
        ...

      • ntp:

        sudo ntpq -c sysinfo

        associd=0 status=c618 leap_alarm, sync_ntp, 1 event, no_sys_peer,
        system peer:        ntp3.vniiftri.ru:123
        system peer mode:   client
        leap indicator:     11
        stratum:            2
        log2 precision:     -24
        root delay:         52.311
        root dispersion:    64.292
        reference ID:       89.109.251.23
        reference time:     eb387851.d9c507b4  Mon, Jan 20 2025 10:22:57.850
        system jitter:      0.798322
        clock jitter:       0.169
        clock wander:       0.000
        broadcast delay:    -50.000
        symm. auth. delay:  0.000


      • chrony:

        sudo chronyc tracking
        Reference ID    : 596DFB18 (ntp4.vniiftri.ru)
        Stratum         : 2
        Ref time (UTC)  : Mon Jan 20 07:16:12 2025
        System time     : 0.002600910 seconds fast of NTP time
        Last offset     : +0.004616632 seconds
        RMS offset      : 0.005930303 seconds
        Frequency       : 14.932 ppm slow
        Residual freq   : -0.000 ppm
        Skew            : 17.281 ppm
        Root delay      : 0.053384144 seconds
        Root dispersion : 0.001329926 seconds
        Update interval : 64.5 seconds
        Leap status     : Normal


    • лог-файлы /var/log/ceph/ceph.log с узлов в состоянии down:
      ...
      mon.node02 (mon.0) 438945 : cluster [WRN] 2 clock skew 8.1533s > max 0.05s
      ...

Возможная причина: Нарушена синхронизация времени между узлами кластера Ceph. Перейти к решению.


Возможные причиныLink to Возможные причины