不涉及泄密的前提下,歡迎長篇大論。一個即將面對數千伺服器的系統管理員,很想開開眼界,做點準備。


裝系統用kickstart、cobbler,配置管理用puppet、func,系統管理用fabric、paramiko以及自己可以寫些運維腳本,監控用zabbix、nagios、cacti,其實完全都是自動化的,但搞運維最尷尬的就是有些事不能自動化-_-,當然你牛逼了可以搞openstack,部署雲環境。
數千伺服器可以根據需要選擇相應監控工具,三大開源監控工具zabbix、nagios、open-falcon的優劣可以參考三大開源運維監控工具zabbix、nagios和open-falcon優缺點詳細比較。

但是必不可少的還有監控平台,來整合所有的告警,並且通過信息整合,將伺服器、功能、人員職責進行關聯,減少無關人員受告警的干擾,也防止相關人員漏掉告警。這點是非常關鍵的。

說到告警平台,國外比較優秀的pagerduty做告警通知比較突出,bigpanda做告警壓縮很nice;國內首個SaaS的雲告警平台onealert應該是整合了pagerduty和bigpanda的長處,告警通知和告警壓縮都在並行研究。並且有一定的勢頭趕超兩者(換言之還有進步的空間)。
裝機,系統配置管理,都是全自動的坐等前同事yegle大俠出來八卦。。


如果你用的是HP的伺服器,可以考慮用HP的ONEVIEW進行管理。ONEVIEW是個單獨安裝的集成化管理系統,既可以用web圖形化的方式使用,也可以編寫腳本用API的方式使用。通過創建server profile,可以批量管理伺服器的管理固件、操作系統、驅動、網路、SAN存儲、本地存儲、BIOS、BOOT,可以控制電源狀態,查看伺服器健康狀態。通過創建LIG,可以批量管理和監控enclosure的乙太網、光纖連接。此外,還可以管理存儲、管理交換機、管理電源、管理機架和數據中心。

總之,數據中心的伺服器、存儲、網路、供電等都可以通過這個系統進行管理。

ONEVIEW的安裝包大約5個多G,最低需要10G內存,你可以找個虛擬機裝上試試~許可證是按照伺服器個數賣的。。。
N多公司都在自己開發運維繫統…… cs模式,web管理和svn等結合

都是自動管理,比如最簡單的一個功能:修改密碼,在管理軟體中設置新密碼後,管理軟體自動會把所有伺服器(包括不同的操作系統)的密碼全部修改。

不同的功能會有相應的軟體來提供服務,HP公司有全套的管理軟體。

http://www8.hp.com/us/en/software-solutions/software.html?compURI=1215996


系統管理員,哈哈,這個你用不著操心,第三方給你做,
運維監控工具 PIGOSS BSM
一般規模的可以用軟體來實現,比如用一些自定義的腳本可以安裝、升級、備份、配置管理,用Nagios之類的軟體可以監控系統狀態。


從管理邏輯上來講、管機器和管人一樣,分而治之!按業務線、按群組分、每群有自己的head;團隊需要溝通機制、伺服器間也一樣,平行和上下的溝通、狀態要納入監控。。
推薦閱讀:
查看原文 >>
相关文章