在6.0.8 Debian服务器(HP ProLiant)的冷启动之后,ntpd
对系统时间造成了严重破坏:相对于通常和可靠的参考时间服务器的偏移和抖动没有限制。(请注意,双胞胎相同的服务器根本没有问题。)在尝试解决该问题很多次失败之后,ntpd
我决定尝试重新启动,一切正常。
为了调查问题,我发现了这种差异,这可以解释我的时钟问题:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
请注意,在第二次引导(问题主机)中,检测到的CPU频率明显是异常值。如果没有异常值,则检测到的频率相对于标称频率的误差和标准偏差为+0.15 MHz±0.25 MHz。对于有问题的启动,我有-16.4 Mhz的错误,它比预期的大100倍左右。
我的问题:
这种错误会导致
ntp
时间纪律不稳定/无法使用吗?这是我的时钟出现问题的原因吗?这种行为是硬件不稳定的症状吗?服务器应该进行硬件维护吗?
更新资料
一些有用的数据:
- 内核是2.6.32-5-amd64(Debian 2.6.32-48squeeze4)
current_clocksource
是tsc
- 的错误
lpj
(当然)与CPU频率上的错误一致
上面的一些上下文行 grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
ntpdc -c loopinfo
从未给我频率漂移值。现在,重新启动后,一切似乎都井井有条,漂移值保持稳定...顺便说一句,您的建议是正确的,我正在监视log/loopstats
异常行为。