美國最大的雲端服務廠商故障四個多小時,可能會毀了你一整天的心情。設想一下, 當你為了加拿大之旅在Airbnb上挑選小木屋,卻只能瞪著網頁上的文字描述,因為圖片打不開了。當你興致勃勃地晨跑了10公里,想在Runkeeper跟好友炫耀一下,突然發現運動記錄傳不上去了。以及你家的智慧硬體由於沒法取得雲端的資料,突然從貼心管家變成了「弱智」機器人。接受現實吧,這就是在雲端的生活。
美國時間2月28日上午9:54分,中國知乎網友「十六樓的老民工」剛喝完早上第一杯咖啡,突然發現之前在電腦上下達的部署指令並未完成,S3雲服務出錯了。他任職的那所舊金山公司,是AWS的大客戶。隨即,他從AWS技術服務人員那端確認了S3出故障的消息。
Amazon S3,全名為亞馬遜簡易儲存服務通俗地講,可用於圖片及網頁上其他計畫的保存備份,同時可以在伺服器和靜態網站裡共享文件。由其的引發的故障,迅速在美國各類新聞網站、應用程式和智慧硬體公司的身上爆發,Quora、Netflix、Airbnb 、Slack、Nest、Runkeeper以及亞馬遜的智慧家居系統Alexa等等,都因此出現了不同程度的服務中斷。
大約十幾分鐘後,「十六樓的老民工」就意識到,儘管雲端廠商的服務故障或宕機時有發生,但這次事故的嚴重程度足以上新聞。「我原以為AWS很可靠了,S3一般很穩定,上一次這麼大規模的(事故)還是2012年聖誕節的時候。」
在業內人士眼中,亞馬遜提供的雲端服務產品非常穩定,S3之前從未出現嚴重故障,公司的維護能力也很強,通常出現問題一小時內就能解決。但在那一天接下來的四個小時裡,亞馬遜卻經歷了漫長的尷尬。
關於事故的影響範疇,SimilarTech行銷總監丹尼爾·巴楚科估算,在全美網路最大的網站中,有1%使用S3。而根據他所在的機構提供的資料,S3被近15萬家網站使用,包括ESPN和AOL等。
不過這次事故對美國以外的企業並未造成太大波及。因為亞馬遜在全球有多個資料中心,這次僅僅是是美國東部的維吉尼亞州資料中心出了故障,不是全球性故障。這個中心靠近美國東部,一般只有美國企業才會採用。另外,這次事故發生的時間是亞太區的夜晚,大洋彼岸的企業也躲過一劫。
S3停擺將給亞馬遜造成多大的經濟損失?Gartner調研總監張毅表示,雲端服務廠商的賠付協議通常會規定一個用時間衡量的可用性。舉例而言,根據企業與雲端廠商簽訂的SLA(service level agreement),當某企業要求可用性為99.95%,意味著每年365天中必須有99.95%的時間正常運轉,而牽涉到特別重要的客戶或關鍵任務,比如電商客戶,可能要保證99.99%的有效服務時間。如果停擺時間超過0.05%或0.01%,通常會以更多免費服務時間作為賠償。
在2013年亞馬遜發生的一次伺服器故障中,曾有媒體估算亞馬遜每秒的損失約為1100美元。
美國時間14:08,亞馬遜宣佈S3已恢復正常,災難停止了。
這場風波留給人們提的醒是,在購買雲端服務時,總是要提前設計好一套Plan B。
Commvault 亞太區企業解決方案架構師李可表示,「系統各個部份的故障和情況都有可能發生,一定要從公司的業務需要出發,來制定資料恢復保護和系統容災的方案規劃,來根據這個去評估自身所能承受的損失的資料量和時間點,然後根據這個來制定資料恢復和容災方案,來制定混合雲等方案。」
不過設計出什麼樣的備災方案需要權衡風險與成本。
「你可以在AWS上再設計一套備災方案,比如可以在us east和us west間切換。不過這不容易,也有額外費用。」「十六樓的老民工」說。
「你要用兩套系統,但架構開發時間、人手、推向市場的時間都是金錢。所以有的企業反倒寧願掛掉五個小時。也有的公司使用雲端服務只是作為長期儲存,不會每天看,事故發生了只會影響資料調用。」Gartner調研總監張毅表示。
但這次S3事故前,很多企業並沒有做類似方案設計,原因在於S3之前顯示出具有很強的穩定性,在人們觀念中為一份低風險的東西買保險,總認為不夠划算。
另一種方式是自建雲,滿足自己的可用性,免去了因為公有雲宕機而帶來的風險,不過自建的方式在成本和穩定性上都會帶來不小的挑戰。這些都要自己去計算權衡。
網頁、郵件中的圖像和附件看不到、各種APP資料上傳受阻、智慧硬體因為無法提取服務所需的資料瞬間倒退成老式電器……S3的故障讓很多人恍然大悟,自己的整個生活已經被搬上了雲端。一家雲端服務商的停擺,甚至有足夠的力量中斷網路世界的執行,特別是當這家公司是亞馬遜。
根據市場研究公司Synergy Research Group去年發佈的第三季度資料,亞馬遜雲端服務在全球IaaS(基礎設施服務)公開市場的市佔率已經上升至45%。
「但雲端服務就是從失敗中發展出來的,只有出現事故,才能發現系統設計和流程上的不足,加以改進。很多東西不是靠紙面上能解決的。S3已經是很穩定的服務,今天的事故又一次告訴我們,革命尚未成功,同志仍需努力。」「十六樓的老民工」說。
★T 客邦的 LINE 官方帳號上線囉!趕快加入隨時獲得第一手 3C 科技消息!
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!