CrowdStrike更新疏失釀全球當機潮，凸顯網路韌性重要

CrowdStrike 在週四晚間發表的內容更新設定錯誤，無意中觸發了全球 Microsoft Windows 系統的當機停擺，導致許多全球最重要的服務斷線無法使用。

CrowdStrike 試圖更新其 Falcon 感測器用於執行即時威脅檢測和終端保護的內容，該感測器透過監控系統活動來辨識可疑行為以防止網路攻擊。內容更新包含旨在微調惡意活動檢測的邏輯，並基於 CrowdStrike 即時、持續收集的最新威脅情報。

「這不是程式碼更新，而是內容更新。這意味著有一個單一檔案驅動了我們尋找惡意行為者的額外邏輯。這個邏輯被推送出去，只在 Microsoft 環境中造成了問題，」CrowdStrike 執行長兼創始人喬治·柯茲（George Kurtz）今天早些時候在 CNBC 的採訪中說。

全球性的立即影響

這次停擺首先在澳大利亞被發現，Windows 機器崩潰並顯示「藍底白字」當機（BSOD）。錯誤的更新觸發了全球範圍的 Windows 停擺，影響了數十個機場、航空公司、銀行機構和服務公司，這些公司都依賴基於 Windows 的系統來運營業務。全球有數十萬旅客滯留在機場。根據《華爾街日報》報導的 FlightAware 數據，截至週五下午，約有 2600 個美國航班被取消，全球有超過 4200 個航班被取消。

IT 停擺的影響也蔓延到 Microsoft Azure 雲端平台。Azure 客戶抱怨說，他們「在使用 CrowdStrike Falcon 代理的 Windows 機器上遇到無回應和啟動失敗，影響了本地和各種雲端平台。」Azure Health Status 顯示，停擺仍然影響著美洲、歐洲、亞太地區以及中東和非洲四個地區的 Azure 虛擬機器。

由於許多雲端系統的配置需要針對每個客戶進行個別更新，因此IT團隊將面臨一個漫長的週末和艱難的七月。建議IT團隊暫時休息一下，如果可能的話，將任何大型專案推遲到錯誤配置得到解決為止。

延伸閱讀：微軟遭遇大規模「藍底白字」當機災情、甚至導致機場航運暫停，傳為 CrowdStrike 防毒軟體更新惹禍

停擺是警訊要立即行動以提高網路韌性

企業的網路韌性越強，就越能預測、抵禦和從各種不利情況中恢復過來，包括攻擊、入侵和資料洩露等。確保網路韌性通常是資訊安全長（CISO）的核心職責之一，因為他們在高階管理層，甚至董事會中扮演著越來越重要的角色。

Reco 的資安長兼 Expanso、Andesite 和 EnkryptAI 的顧問梅里特·貝爾（Merritt Baer）表示：「最終，每個企業都面臨著修補節奏的挑戰。今天是 CrowdStrike 的糟糕日子，也成為了許多人的糟糕日子。Crowdstrike 要求他們的客戶進行修復更新的工作，這創造了更多的回應時間和補救時間。」

Trustwave 的首席資安長柯里·丹尼爾斯（Kory Daniels）最近表示：「董事會已經開始討論這個問題了：是否有必要正式任命一位首席韌性長？」據了解，越來越多的董事會正在將網路韌性納入他們更廣泛的風險管理項目團隊中。因為造成供應鏈混亂的高調勒索軟體攻擊是任何企業最難承受的損失之一，正如 United Healthcare 的數據洩露事件所表明的那樣。

由於系統錯誤配置而導致的服務中斷事件凸顯了企業需要建立獨特的網路韌性，這種韌性應該被積極追求，並成為企業文化核心的一部分。儘管全球性的服務中斷事件會持續發生，因為這是一個永遠在線、即時運行、系統複雜且相互關聯的世界所無法避免的現象。

貝爾指出，這些事件的規模很大，但其原因也相當明確。例如，Snowflake的中斷是由於軟體即服務（SaaS）的配置錯誤，而SolarWinds的事件則是俄羅斯支持的供應鏈攻擊。這些都是傳統的資訊安全問題。

本週發生的全球性網路服務中斷事件，就像是如果一個國家的網路安全薄弱或不存在時，國家級網路攻擊可能造成的後果。為了了解國家網路韌性和網路防禦的重要性，可以參考美國情報界最近發布的「2024 年年度威脅評估」報告。

為了應對錯誤配置，網路韌性需要快速辨識並定義問題，確定解決方案（理想情況下可以自動化），並與每個受影響的客戶和人員進行充分溝通。要確保內部網路韌性的有效性，需要提供準確、易於所有人存取且儘可能即時的報告。目標是讓所有參與更新的人員都能夠對結果負責，並確保在合作夥伴平台上進行完整的回歸測試和測試。

「今天早些時候，CrowdStrike 的 Falcon 服務遭遇了一次不幸的全球性停擺，影響了許多在 Windows 系統上使用該軟體的客戶。CrowdStrike 事件響應團隊迅速確定根本原因並快速通知客戶的行動值得稱讚，其執行長的部落格是誠實和清晰的，」JFrog 的資安長保羅·大衛（ Paul Davis）說。

柯茲繼續在社群媒體平台 X 和 LinkedIn 上發表更新。在下面最新的 X 貼文中，他承諾提供停擺發生的根本原因分析。

「在安全領域，必須時刻為意外做好準備，並為那些突發事件制定應變計劃。沒有完美的軟體這種東西。畢竟，軟體是由人類構建的，而犯錯是人之常情。重要的是你多快找出問題並趕快恢復，」大衛說。

恢復你的系統

今天稍早，CrowdStrike 在其網站上發布了恢復受停擺影響的系統，以及查找受錯誤配置更新影響的系統或主機的說明。

您需要先以安全模式啟動任何受影響的電腦。這個步驟是必要的，因為需要更新的 Falcon Sensor 軟體嵌入了 Windows 作業系統的子目錄中。啟動到安全模式對於存取此子目錄並執行必要的更新至關重要。

如果受影響的電腦使用了BitLocker或其他全磁碟加密（FDE）軟體，你會需要每台電腦的恢復金鑰。CrowdStrike在其部落格文章中詳細說明了如何恢復受影響的電腦，並建議採取以下步驟：

網路韌性是客戶信任的代名詞

「安全廠商需要明白，他們掌握著客戶的成果。」貝爾在採訪中表示：「我想 Crowdstrike 未來不會再以同樣的方式推送更新。」這次全球性的服務中斷持續影響著數十萬人的生活，迫使企業陷入停頓。從依賴雲端系統與客戶聯繫的設計師，到大規模企業中有數千名同事無法登入，今天的經驗清楚表明，網路韌性不僅僅是一項安全措施，更應該是客戶體驗的基石。

贏得並保持客戶的信任，取決於企業能否盡可能地提升網路韌性。這次的服務中斷事件是一個警示，每個企業都應該將其視為一個試煉，來評估自己對類似事件的準備程度。

鑑於全球系統之間複雜的整合和連接，未來仍將發生服務中斷事件。每個企業都必須對網路韌性負責，並選擇現在而不是以後在這個方面表現出色。

延伸閱讀：Facebook災難級斷線導致全球哀鴻遍野，背後到底發生了什麼事？
延伸閱讀：資安再嚴也敵不了一把尖嘴鉗！巴黎數千人斷網，竟是因為網路關鍵節點線纜遭人惡意剪斷
資料來源：VentureBeat