ADVERTISEMENT
在消費者接觸點碎片化且市場需求變化迅速的現在,如何快速地蒐集、整合、分析及應用數據是企業能否搶得先機的關鍵!長年榮獲 Google Cloud 合作夥伴獎的 Cloud Ace,此次統整了可高效實踐四大數據分析步驟的 Google Cloud Platform(GCP)工具,及不同需求下的搭配策略,希望協助企業在更短的時間內最大化數據價值。
無須編寫程式碼,即可執行資料前處理(ETL)
首先,我們最初拿到的資料集通常是原始資料(Raw Data),而這些 Raw Data 是不能被拿去做任何分析的!因為未經處理的 Raw Data 常會有資料格式不正確、不一致、空值很多或編碼錯誤等問題,也就是所謂的髒數據。因此,在執行大數據分析時,資料前處理往往會花費許多時間,透過了解整份資料每個欄位所代表的意義,進而根據這些欄位決定該如何處理與清洗,讓整份資料集變成一份可分析的資料,步驟雖繁瑣但也至關重要。
ADVERTISEMENT
資料前處理其實就是大家耳熟能詳的 ETL(Extract, Transform, Load),在 GCP 上,除了可單純使用 BigQuery,還可再搭配 Cloud Dataflow 與 Cloud Pub/Sub。針對即時資料(Streaming Data),資料產生時會觸發 Cloud Pub/Sub 並立即透過 Cloud Dataflow 加以處理。而針對批次資料,則可透過外部工具或自行撰寫的排程程式,將資料傳送到 Cloud Storage(GCS)後,再由 Cloud Dataflow 進行資料處理(詳見下圖)。
ADVERTISEMENT
其中 Cloud Dataflow 屬於全代管的資料處理服務,不僅可自動安排資料處理流程、部署及管理資源處理作業,還可藉由水平調度工作站資源,提高資源使用率以符合成本效益。另外諸如 Dataprep、Dataproc 和 Data Fusion,也都是 GCP 上實用的資料處理工具,下面簡單介紹這三項工具的用途。
首先,Dataprep 可透過圖形介面(無需編寫程式碼)瀏覽、清理及準備相關資料(結構化與非結構化資料),也能處理任何規模的資料,自動偵測結構定義、資料類型及異常(如缺值、離群值和重複值),此外還會建議及預測最合適的資料轉換作業。而 Dataproc 則像是 GCP 上的「全代管式」 Apache Hadoop、Spark 叢集。最後,Data Fusion 和 Dataprep 一樣提供圖形介面,使用者無須編寫程式碼就可部署 ETL/ELT 資料管道(Data Pipeline)。
Cloud Storage + BigQuery,一次滿足資料湖與資料倉儲需求
透過 GCP 完成自動化處理與清洗資料後,就可以將這些乾淨的資料匯入資料倉儲(Data Warehouse)中,也就是 ETL 中的 L(Load)。有人也許會問,為什麼不直接把 Raw Data 放入資料倉儲清洗後再做分析呢?原因其實很簡單,因為資料倉儲主要是存放乾淨、Schema 一致(準備被分析)的資料;資料湖(Data Lake)才主要用來存放來源不同的 Raw Data,保留資料原始格式。所以資料倉儲基本上只負責分析而不負責清洗。
ADVERTISEMENT
在 GCP 上,GCS 及 BigQuery 是兩大最常用的資料儲存服務。通常,GCS 會作為 Data Lake 使用;BigQuery 則作為資料倉儲使用。其中 BigQuery 屬於無伺服器服務(Serverless Service),不僅容易管理,還具備 SQL 查詢介面,此外也支援即時(Streaming pipeline)或批次(Batch pipeline)的資料匯入。
不須會 Python!用標準 SQL 語法快速實踐資料分析與 AI 應用
有乾淨的資料儲存在資料倉儲後就可正式開始分析了!如果不是太複雜的分析,可直接利用 BigQuery 的 SQL 查詢介面分析資料,或使用標準 SQL 語法建立或執行機器學習(Mechine Learning,ML)模型。另外,前面提到的資料處理工具 Dataflow 和 Dataproc ,也都能作為資料分析的輔助。Dataflow 有即時 AI 功能,可建構各種智慧解決方案,包含預測分析、異常偵測、即時個人化和其他進階分析用途等。而 Dataproc 則可透過 Apache Spark ML 執行機器學習,或搭配 BigQuery 進行分析。
ADVERTISEMENT
最後,GCP 也有推出預測分析所需的相關服務,除了上述所提的 BigQuery ML,Vertex AI 與 AutoML 的搭配也很推薦!因為我們不用會寫 Code,就可快速建立與訓練模型。如要以自訂工具建立 ML 模型,也能用少少的 Code 訓練出好模型,使用門檻低之外成效也很顯著。
以 Data Studio 達成資料視覺化,輕鬆實現 Business Intelligence
最後,在資料視覺化上最常使用的就是 Data Studio。易於理解的互動式 Dashboard 圖像報表讓我們可以在一份報告中即時比較、過濾和組織所需要的確切資料。另外,Data Studio 可連接的資料來源端也很豐富,除了 Google 本身的 BigQuery、Cloud SQL 和 Google Sheet,也支援 AWS 的 Redshift,加上可以免費使用,是企業能以高效低成本的方式實現 Business Intelligence 的有力幫手。
以上是 GCP 各項工具在數據處理四大步驟的搭配與應用建議,如想更了解企業愛用的數據分析應用方案與客製化開發服務,歡迎參考我們的大數據分析解決方案,讓數據成為推動企業成長的最佳助力!
關於 Cloud Ace
Cloud Ace 為亞洲據點最多的 Google Cloud 合作夥伴,擁有 12 項 Google 專業領域認證與超過 400 張的專業證照, 集團服務過全球超過 500 家企業。如有 Google Cloud 產品導入或客製化專案開發需求,歡迎與我們聯繫。
- Mail:
- Phone:+886-2-2377-2766
- Facebook :Cloud Ace Taiwan
• 本文內容由 Cloud Ace 提供
ADVERTISEMENT