有著 35 億活躍使用者的 Facebook 全線業務,一度在全球無法連接長達 6 小時。
這些服務包含 Facebook 及其相關服務 Instagram、WhatsApp、Messenger、Oculus 等;以及其企業級產品,甚至 Facebook 的公司內網。其中,WhatsApp 和 Facebook Messenger 分別擁有 20 億使用者和 13 億使用者。
這次史無前例的故障,其起因本身就是 Facebook 在疫情後不得不開展大量遠距工作,疫情讓人們不得不留在家中,依賴網路完成大部分工作和人際交往,原本臨時的遠距辦公措施逐漸常態化和永久化,也讓人們憧憬新生活方式的可能。但只需要一次簡單的服務中斷,這一切就都有可能被打回原點。長達 6 小時的 Facebook 大當機,正是讓我們重新反思這一切的絕佳時機。
發生了什麼?
根據目前能掌握的訊息,這次 Facebook 的大規模故障應該是從一次例行維護開始的。
Facebook 主管基礎設施的副總裁賈納丹(Santosh Janardhan)說,他們在維護過程中發出的一條命令,無意中關閉了通往世界上所有 Facebook 數據中心的骨幹網連接。
圍繞此事,主要有兩個不同的陰謀論。
-
一是此事正好趕在有位「吹哨人」就 Facebook 及 Instagram「無視兒童安全」上美國國會聽證會的前夕,6 個小時也許夠用來「毀屍滅跡」;
-
另一說是有 15 億份近期的 Facebook 使用者個人資料流出,有人說黑市每 100 萬個使用者資料開價 5000 美元。6 個小時同樣也許可以用來補救或者掩蓋什麼。
目前來看,因為「吹哨人」而自導自演當機的可能性小到幾乎為 0。官方一再解釋,此次當機並不是駭客攻擊導致,也沒有證據顯示有使用者數據是因此事而洩露。
除 Facebook 官方之外,負責第三方公共 DNS 解析和 CDN 服務的 CloudFlare 也分析,從外部觀察,就是 Facebook 的 BGP(邊界閘道協定)出的問題。
通俗的說,DNS 是網路的「地圖」,用來告訴你「x 在什麼地方」;而 BGP 是這一「地圖」的「導航」部分,告訴你「怎麼走去 x 最快」。
要準確理解這一概念,首先要明白一點:
我們現在所稱的「網路」,字面意思是「網際(inter-)網路(net)」,也就是「網路的網路」,是無數張小網路如「島嶼」般彼此連接的後果。以實例來說明,這些小網路可能是「中華電信」、「凱擘寬頻」或者「台灣微軟」。
相對於全球所有聯網電腦而言,一整個國家的全國網路也算是一張巨大的小網路,透過海底電纜等「橋樑」同其它外「島」相連。但由於它們遵守相同的協議,所以聯網方法完全相同。
BGP 就是要告訴使用者,在地理意義上,你必須經過某些「島」和「橋樑」才能到達目的地。一般來說,BGP 會智慧地選擇多種不同路線中距離最短的那一條,當然「最短」不意味著「最理想」,因為有些「橋樑」比如 5G連接是收費的。
當 Facebook 的 DNS 伺服器注意到問題,就自動停止繼續分發 BGP 路由訊息,等待連接恢復正常。因為全球各地設備無休止的發起不成功的訪問請求,會導致對上級 DNS 伺服器更嚴重的沖擊,讓影響擴散得更嚴重。
在本次事件中,Facebook 內部的 DNS 伺服器本身仍在工作,但主動選擇停止解析,以保護更大範圍的網路。
雖然在實務上修理它並不是什麼難事,然而一系列連鎖反應使問題進一步惡化。
怎麼會這麼嚴重?
缺乏網路連接和域名解析丟失,切斷了遠距工作的 Facebook 工程師和伺服器的聯繫,也禁用了許多他們平常使用的檢修工具。一位 Facebook 內部人士在 Reddit 爆料,當時的情況是:
-
會修的人連不上路由器也沒有登錄權限,
-
有權限的人不會修也連不上,
-
唯一在機房能接觸到路由設備的員工沒有權限也不會修。
由於內部通訊工具也離線了,這三波人協作困難,雪上加霜。
公司內部的混亂是全方位的。員工之間本來用公司自己的通訊工具溝通,現在改用如Google文件和 Zoom 會議軟體,但是,這些也要求使用 Facebook 帳號登入。系統崩潰讓這一切全都卡關。
有的員工在事發之前已經用公司至帳號登錄到Google文件等環境,受影響尚且較小;有的急忙上線,卻發現自己只能用基於微軟 Outlook 的工作郵箱、蘋果的 Facetime 等各種各樣的替代服務與同事聯繫。
修復工作很顯然無法遠距完成,工程師們緊急「飛到」加州的主資料中心參與維修。在此期間,一些員工並不能使用門禁卡進入公司大樓和會議室,但這些地方的門卻又只能用門禁卡刷開,沒有鑰匙孔。
The Verge 曾一度獲得更戲劇性的內情——因為門禁卡失效,工程師只能帶著切割機,強行鋸開資料中心的伺服器鐵籠。不過這個報導因未經證實,被撤回了。
不過一旦人都被「實體傳送」到了合適的位置上,事情相對就好辦多了,只需要「啟動安全協議」而不是動用電鋸。
但,就算已經解決問題,也必須逐漸一點點地「開閘放水」,否則一次性打開所有通路會導致更多的系統崩潰。負載必須逐步增加,除美國以外地區的其他使用者要等更久才恢復。
最終,一切又大致恢復了正常,包括 Facebook 最多曾下跌 5% 的股價。
都是「遠距」惹的禍?
2020 年 5 月美國的疫情開始急劇升溫。當時 Facebook 表示,關閉公共辦公空間,所有有條件的員工都需要在家工作。而這一措施是短期、臨時性的措施,待疫情受控,辦公室重開後,將僅允許某些員工,尤其是最資深、最有經驗的員工長期遠距工作。
時隔一年,Facebook 在今年 6 月 9 日更新了政策,將長期遠距辦公的許可範圍擴大到任何有能力在家完成工作的員工。
祖克柏寫道:
「在過去的一年,我們瞭解到,員工在任何地方都能完成良好的工作。我更樂觀地認為,遠距工作有可能大規模進行,尤其是在遠距視訊和虛擬實境不斷改進的情況下。」
自然,無法遠距完成的工作通常包括那些在硬體設備或資料中心的工作。但從今天這起事件的情況來看,很顯然就連資料中心和閘道器的職位,也有一部分已經在「遠距」了。
祖克柏還表示,Facebook 將開始允許員工跨越國境線進行遠距工作。Facebook 將允許美國員工要求在加拿大、英國和歐盟的遠距工作。到 2022 年 1 月,公司將允許員工在歐洲七個國家之間永久流動。
據統計,Facebook 的勞動力總數約為 6 萬人,全美絕大部分辦公室在 9 月初以 50% 的容量重開,按計劃 10 月要全面開放。
Facebook 並不是唯一一家選擇更深入擁抱遠距辦公的科技巨頭。Facebook 的業務本身就包含讓人們遠距離溝通的含義。以 Oculus 為載體的擴增實境和所謂「元宇宙」服務也在其規劃之中,它本身就計劃創造一個跨越物理距離和國家邊界的網路領地,而自家員工的率先啟用,正好可以做一個內部演練。
直到此時,人們主要關注的還是遠距辦公是否會影響效率的問題,以及是否可以全面模擬和替代現場辦公的體驗,及產生所謂「化學反應」。
祖克柏說,想要在 Facebook 辦公室工作的員工,將被要求至少有一半的時間來上班。這是為了確保辦公室保持活力,並確保進入辦公室的員工充分利用空間,成為社群的一部分。此外,他們還計劃為辦公室和遠距人員組織定期的現場聚會,以維護同事關系。
另外值得關注的問題還包括工資。遠距工作很容易導致的結果就是「在泰國工作,拿矽谷的工資」。企業當初為員工制定的薪資一般都結合了當地物價和住房成本(如果租房補貼不另計的話),所以長期遠距意味著需要與員工協商一定程度降薪。但考慮到不同人工作節奏和偏好的不同,從工作效率最大化的角度出發,員工和公司往往也都願意接受改變。
從今天開始,人們將不得不思考在這些問題之外,一個更基本的原則性問題:如果連不上遠距辦公所需的網路基礎設施該怎麼辦?
過去,我們覺得這種事完全不可能發生。
現在,連Facebook都會遇到這種事情,誰敢保證自家不會?
被刻意忽略的風險
起初的一兩個小時里,人們還只是在隔壁 Twitter 上轉發梗圖。越到後來,大家就越有點笑不出來了。
很多人猛然驚醒,發現他們和生命中交往最頻繁的同事、朋友乃至相隔兩地的家人,彼此聯繫方式可能真的只剩下網路這一種,手中的電話號碼也許對方是幾年前的,如果就此一別,真就不知何時能再相見。
對許多人來說,不能使用 Facebook 只是帶來不便。但是對於發展中國家的一些小企業來說,沒有其他可靠方式與客戶溝通,這可能是一個嚴重問題。
印度擁有 3.4 億 Facebook 使用者,是全球最多,WhatsApp 也是該國個人和企業溝通的重要工具。研究公司 eMarketer 稱,印度有近 4.9 億 WhatsApp 活躍使用者。
這兩大平台不僅可以宣傳商品,更可以作為網店銷售產品。成千上萬的印度企業被迫停業,而相關顧客也沒法網購生活必須品。
在巴西,政府官員甚至教育系統都在使用 WhatsApp。學生可從 WhatsApp 接收考試成績。醫院也使用 WhatsApp 預約掛號和遠距會診。
長達 6 小時的服務中斷,讓祖克柏本人的紙面財富縮水了 60 億美元,但由於 WhatsApp、Messenger 和 Instagram 等工具為全球政府、商家、慈善機構、社群和普通人與人之間聯繫帶來的損失,恐怕難以估量。
網路是一個脆弱的生態系統,建立在全球海底電纜和分佈式伺服器網路之上。人們很容易忘記,網路不僅僅是一個概念網路,乃至無實體的「元宇宙」,它們都建立在物理基礎設施上,這很重要;由誰控制這些基礎設施,更為重要。
既然人類的抱團天性,可能注定了他們難以接受「狡兔三窟」式不停更換社群媒體服務商,戒斷 Facebook、Twitter、YouTube 或其它任何集中式的單一服務,成本太高,似乎也沒有必要;那麼,這些巨頭自身和位於其上的監管部門,也就同時被賦予了更大的責任。因為他們的目標已經超越了企業的穩健盈利,而是以此為生的億萬民眾、中小企業的衣食所繫。
Facebook 修好網路以後沒過幾個小時,其前員工控訴公司「只顧賺錢,不管公共利益」的國會聽證會也順勢開幕了。照例,我們還會聽到自法務副總裁到祖克柏本人的反駁;但其斷網事件本身,比其它任何材料都更雄辯地說明,人們需要對大平台始終保持警惕,並限制它們進一步侵佔我們的生活和工作,讓我們在事實上變得失去其它選擇。
也許,每個人面對這種警惕要做的第一件事,是跟自己素未謀面的好友和同事們,交換一個其它類型的聯繫方式。
參考資料
-
https://www.theverge.com/2021/10/4/22709575/facebook-outage-instagram-whatsapp
-
https://engineering.fb.com/2021/10/04/networking-traffic/outage/
-
https://www.reddit.com/r/sysadmin/comments/q181fv/looks_like_facebook_is_down/hfda42z/
-
https://www.theverge.com/2021/10/4/22709575/facebook-outage-instagram-whatsapp
-
https://www.facebook.com/careers/life/what-remote-and-flexible-work-will-look-like-at-facebook
- 本文授權轉載自:36kr(36氪)
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!