標簽:服務(wù)器,
服務(wù)器的宕機是一種較為嚴重的服務(wù)器故障問題,對于很多支付行業(yè)來講是一種致命性的設(shè)備故障問題,比如:
2009年秋天,微軟數(shù)據(jù)中心的一次服務(wù)器故障導致T-Mobile Sidekick手機存放在微軟服務(wù)器上的用戶數(shù)據(jù)全部丟失。這些數(shù)據(jù)包括通訊錄、日程表、照片、待辦事項等等;
2013年10月雅虎郵箱進行全面改版升級,一些用戶在升級后表示賬戶存在郵件丟失的情況。12月,雅虎正式確認這次升級導致1%的郵箱賬戶出現(xiàn)郵件丟失問題,一些郵件耗時數(shù)周甚至數(shù)月都無法送達,這次事件最終影響到用戶數(shù)量約100萬人左右;
2015年9月,剛剛推出DynamoDB服務(wù)器導致亞馬遜云服務(wù)宕機,包括Redait、Tinder、Netflix、IMDB在內(nèi)的大量熱門網(wǎng)站受此影響并停運超過七個小時。
當然,服務(wù)器按照工作負載不同可以分為很多類別,一篇文章并不能把所有的問題都說清楚,今天主要說一下Web服務(wù)器出現(xiàn)宕機時,運維人員第一時間要做的有哪些?
其實宕機可以分為兩類:假宕機(非藍屏宕機)和宕機。
假宕機是由于硬件資源暫時性地被消耗殆盡,因而無法對外部指令進行響應(yīng)的現(xiàn)象,通常是網(wǎng)站處于訪問高峰期,帶寬等資源跑滿,這時只需要等待一定的時間,待服務(wù)器騰出更多的硬件資源即可恢復正常。而宕機,如果通過ping測試服務(wù)器,鍵盤切換數(shù)字鎖定鍵(NumLock)或大寫鎖定鍵(Caps Lock)功能,顯示器無畫面輸出,或者鼠標光標沒有任何反應(yīng)則表明服務(wù)器硬件故障。
首先,檢查所有電纜和外圍設(shè)備,試著使用ping命令探測設(shè)備狀況,ping命令是所有平臺通用的,也是最簡單的。如果可以在局域網(wǎng)內(nèi)ping通服務(wù)器,接著可以試試從局域網(wǎng)外ping服務(wù)器進行檢測。這樣做可以迅速判斷問題是否產(chǎn)生在交換和路由層面,而不是服務(wù)器級別。
電源沒有問題,Ping不通,就要叢底層到高層來逐層檢查問題了,檢查網(wǎng)絡(luò)接口和網(wǎng)絡(luò)配置是否正常?DHCP是否啟動?Web服務(wù)器是否指向正確的DNS服務(wù)器?在Windows環(huán)境,需要檢查服務(wù)器是否具有Web服務(wù)的角色。在Linux環(huán)境下,檢查會更復雜,可以試試查找http相關(guān)的文件或服務(wù)來確保服務(wù)器是否正在運行。
此外,如果Web服務(wù)器已經(jīng)虛擬化,試著ping物理服務(wù)器自己的真實IP。這樣可以幫助你進一步隔離問題。如果完全無法ping同服務(wù)器,而且也已經(jīng)確定完全檢查了網(wǎng)絡(luò)連接,那么就需要進行更深入的分析了。
這種時候,就要去檢查日志并查明在Web服務(wù)器宕機時日志紀錄的信息,如果是專業(yè)人士,日志信息可以告訴你一切,半專業(yè)人士可以google搜索日志報警的錯誤信息,逐步找到解決方法,非專業(yè)專人的管理員就要求救外援了,總之,找問題要縱覽全局,多從架構(gòu)、資源層面去查找問題。
當然,經(jīng)常進行資料備份,在去選擇一個備用服務(wù)器以方便遇到緊急狀況隨時切換,這是最笨也是最簡單的辦法。
|