從Amazon雲端服務停擺4小時震動矽谷,看出我們賴以生存的網路有多脆弱?

從Amazon雲端服務停擺4小時震動矽谷,看出我們賴以生存的網路有多脆弱?

美國最大的雲端服務廠商故障四個多小時,可能會毀了你一整天的心情。設想一下, 當你為了加拿大之旅在Airbnb上挑選小木屋,卻只能瞪著網頁上的文字描述,因為圖片打不開了。當你興致勃勃地晨跑了10公里,想在Runkeeper跟好友炫耀一下,突然發現運動記錄傳不上去了。以及你家的智慧硬體由於沒法取得雲端的資料,突然從貼心管家變成了「弱智」機器人。接受現實吧,這就是在雲端的生活。

美國時間2月28日上午9:54分,中國知乎網友「十六樓的老民工」剛喝完早上第一杯咖啡,突然發現之前在電腦上下達的部署指令並未完成,S3雲服務出錯了。他任職的那所舊金山公司,是AWS的大客戶。隨即,他從AWS技術服務人員那端確認了S3出故障的消息。

從Amazon雲端服務停擺4小時震動矽谷,看出我們賴以生存的網路有多脆弱?

Amazon S3,全名為亞馬遜簡易儲存服務通俗地講,可用於圖片及網頁上其他計畫的保存備份,同時可以在伺服器和靜態網站裡共享文件。由其的引發的故障,迅速在美國各類新聞網站、應用程式和智慧硬體公司的身上爆發,Quora、Netflix、Airbnb 、Slack、Nest、Runkeeper以及亞馬遜的智慧家居系統Alexa等等,都因此出現了不同程度的服務中斷。

大約十幾分鐘後,「十六樓的老民工」就意識到,儘管雲端廠商的服務故障或宕機時有發生,但這次事故的嚴重程度足以上新聞。「我原以為AWS很可靠了,S3一般很穩定,上一次這麼大規模的(事故)還是2012年聖誕節的時候。」

在業內人士眼中,亞馬遜提供的雲端服務產品非常穩定,S3之前從未出現嚴重故障,公司的維護能力也很強,通常出現問題一小時內就能解決。但在那一天接下來的四個小時裡,亞馬遜卻經歷了漫長的尷尬。

從Amazon雲端服務停擺4小時震動矽谷,看出我們賴以生存的網路有多脆弱?

關於事故的影響範疇,SimilarTech行銷總監丹尼爾·巴楚科估算,在全美網路最大的網站中,有1%使用S3。而根據他所在的機構提供的資料,S3被近15萬家網站使用,包括ESPN和AOL等。

不過這次事故對美國以外的企業並未造成太大波及。因為亞馬遜在全球有多個資料中心,這次僅僅是是美國東部的維吉尼亞州資料中心出了故障,不是全球性故障。這個中心靠近美國東部,一般只有美國企業才會採用。另外,這次事故發生的時間是亞太區的夜晚,大洋彼岸的企業也躲過一劫。

S3停擺將給亞馬遜造成多大的經濟損失?Gartner調研總監張毅表示,雲端服務廠商的賠付協議通常會規定一個用時間衡量的可用性。舉例而言,根據企業與雲端廠商簽訂的SLA(service level agreement),當某企業要求可用性為99.95%,意味著每年365天中必須有99.95%的時間正常運轉,而牽涉到特別重要的客戶或關鍵任務,比如電商客戶,可能要保證99.99%的有效服務時間。如果停擺時間超過0.05%或0.01%,通常會以更多免費服務時間作為賠償。

在2013年亞馬遜發生的一次伺服器故障中,曾有媒體估算亞馬遜每秒的損失約為1100美元。

美國時間14:08,亞馬遜宣佈S3已恢復正常,災難停止了。

這場風波留給人們提的醒是,在購買雲端服務時,總是要提前設計好一套Plan B。

Commvault 亞太區企業解決方案架構師李可表示,「系統各個部份的故障和情況都有可能發生,一定要從公司的業務需要出發,來制定資料恢復保護和系統容災的方案規劃,來根據這個去評估自身所能承受的損失的資料量和時間點,然後根據這個來制定資料恢復和容災方案,來制定混合雲等方案。」

不過設計出什麼樣的備災方案需要權衡風險與成本。

「你可以在AWS上再設計一套備災方案,比如可以在us east和us west間切換。不過這不容易,也有額外費用。」「十六樓的老民工」說。

「你要用兩套系統,但架構開發時間、人手、推向市場的時間都是金錢。所以有的企業反倒寧願掛掉五個小時。也有的公司使用雲端服務只是作為長期儲存,不會每天看,事故發生了只會影響資料調用。」Gartner調研總監張毅表示。

但這次S3事故前,很多企業並沒有做類似方案設計,原因在於S3之前顯示出具有很強的穩定性,在人們觀念中為一份低風險的東西買保險,總認為不夠划算。

另一種方式是自建雲,滿足自己的可用性,免去了因為公有雲宕機而帶來的風險,不過自建的方式在成本和穩定性上都會帶來不小的挑戰。這些都要自己去計算權衡。

網頁、郵件中的圖像和附件看不到、各種APP資料上傳受阻、智慧硬體因為無法提取服務所需的資料瞬間倒退成老式電器……S3的故障讓很多人恍然大悟,自己的整個生活已經被搬上了雲端。一家雲端服務商的停擺,甚至有足夠的力量中斷網路世界的執行,特別是當這家公司是亞馬遜。

根據市場研究公司Synergy Research Group去年發佈的第三季度資料,亞馬遜雲端服務在全球IaaS(基礎設施服務)公開市場的市佔率已經上升至45%。

「但雲端服務就是從失敗中發展出來的,只有出現事故,才能發現系統設計和流程上的不足,加以改進。很多東西不是靠紙面上能解決的。S3已經是很穩定的服務,今天的事故又一次告訴我們,革命尚未成功,同志仍需努力。」「十六樓的老民工」說。

從Amazon雲端服務停擺4小時震動矽谷,看出我們賴以生存的網路有多脆弱?

★T 客邦的 LINE 官方帳號上線囉!趕快加入隨時獲得第一手 3C 科技消息!

從Amazon雲端服務停擺4小時震動矽谷,看出我們賴以生存的網路有多脆弱? 從Amazon雲端服務停擺4小時震動矽谷,看出我們賴以生存的網路有多脆弱?

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則