提到伺服器宕機檢測,大家會想到,宕機能夠很快知道,這個有什麼可做的?實際上,很多時候伺服器宕機,並不總是被及時感知。伺服器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這麼簡單。
想要獲知伺服器宕機怎麼辦?可以通過伺服器宕機實時檢測:
1)發現宕機。
2)提前告警。
3)告知宕機的詳細原因,如硬體故障,內核bug,網路異常等等。
4)自動報修生成工單。
我們知道,進行全網物理機宕機準確探測與實時發現,可以給宕機分析提供第一現場,獲取第一現場的日誌。也可以儘早將宕機數據推送給業務或運營感知並處理,如自動報修,業務遷移等,從而儘可能將業務影響降到最低。
更重要的是,準確的宕機發現數據可以為宕機預測提供準確的標註數據,為後期宕機預測提供數據基礎,並且這些數據提供給運營部門進行整體分析,提升處理效率。