2019.11.22 00:48

LINE 是怎麼處理一天多達 390TB 的巨量資料呢?靠的是疊起來高 3.5 座晴空塔的伺服器

ADVERTISEMENT

在本屆 LINE Developer Day 2019 開發者大會中,談完了 LINE 的願景以及 LINE Brain 人工智慧計畫後,LINE Verda 部門主管 Yoshihiro Saegusa 接著介紹 LINE 的數據平台以及基礎架構。

你可曾想過,每天在全世界各地有這麼多人使用 LINE、傳送這麼多訊息,這資料量究竟有多麼龐大嗎?根據 LINE 的統計,LINE 每天要處理一兆則紀錄,一天會增加 390TB 的資料量(這還是已壓縮過的),每日需執行 7 萬個不同的資料處理程序,可以想見要管理這些龐大的數據資料是一大挑戰。

ADVERTISEMENT

LINE 的目標是建立一個統一管理的自助式數據平台,以滿足內部不同職位的人的需求,舉例來說,若 LINE 的產品經理需要取得資料進行分析可以從數據平台中尋找,或是當 LINE 的工程師希望找到產品 Bug 的原因,也可以在數據平台中分析。

要建立這樣的數據平台,第一個挑戰就是關於資料的存取性(Accessibility),就如先前採訪中提到的,LINE 致力於避免數據孤島問題,由於過去 LINE 推出的各種不同服務各自收集到了不同的資料,不過因為資料分散於不同位置,要跨服務進行分析不容易,因此希望透過統一的數據平台來解決數據孤島的情況。

ADVERTISEMENT

但要怎麼在同一個數據平台提供各種分析環境給多租戶(Multi-tenancy)又是另一個議題了,該怎麼設計多租戶架構,讓不同服務存取資料時不會受到其他服務影響,這就是 LINE 面臨的第二個挑戰。

第三個挑戰則是數據品質(Data Quality),如何有效的提供給 LINE 的兩千多名工程師和開發者,或是 LINE 內部需要資料分析的人有效的數據是 LINE 得要挑戰的問題。

對此,LINE 成立了 Verda 私有雲團隊,透過 60 位基礎架構工程師開發了一個具備快速生命週期的基礎架構(Fast lifecycle Infrastructure),這套架構由遍佈全球的四萬台伺服器組成。

ADVERTISEMENT

四萬台伺服器是什麼概念呢?這些伺服器疊起來高度大概是 2,200 公尺,也就是大概 3.5 個東京晴空塔高,透過這些伺服器的運作,一天最高可以處理 50 億則訊息,尖峰時段可以支撐 1Tbps 的流量。

由於 Verda 私有雲的管理者就是 LINE 自己的團隊,因此 LINE 可以作為開發人員的後援,不論開發人員需要幾天或是幾週的開發週期,LINE 的快速生命週期基礎架構可以快速調整並解決開發者遇到的運提,讓開發更為順暢。

ADVERTISEMENT

ADVERTISEMENT