Data Engineering Blueprint on Google Cloud 1.0

數據工程是數據科學的基礎,這篇文章為你介紹了在Google Cloud平台上建立數據工程藍圖的步驟,讓你學習如何選擇和使用數據源、數據流、數據倉庫、數據湖、數據管道、數據目錄和數據可視化方案。你將掌握Google Cloud的各種服務和產品,以及如何利用它們實現高效和可靠的數據工程解決方案。....



數據工程如果是駕車的技術,那麼這個技術必需要學會在開車的同時,要時時刻刻注意都有商品上車(數據更新)、一邊看著儀表板及道路狀況(業務發展需求),在不發生任何意外的情況,要在車上將商品再製加工(數據處理),並產生商品價值後(資料視覺及機器學習),穩定且安全的將商品提供予需要的客戶(數據提供)。

那我們在車子停下來時先練好駕車技術吧!不,數據工程跟系統軟體工程最大的差別是,數據工程的起點不是從0開始到系統上線時的100,數據工程是從100開始,在已產生的數據基礎之上,提供數據價值。

另一方面,數據工程已經不是系統軟體工程後段的報表需求而已,在數據服務及數據中台的發展後,大部分的業務需求都需要數據工程的支持。以常見的推薦系統來說,沒有使用數據架構仍可透過資料庫及程式碼實現,但隨著數據量的增加,效能會遞減或架構難以擴充。

開發一個可擴展的、高效率、可容錯資料的數據架構是非常困難的,但是,我們仍試著將關鍵概念和組件分解出來,使數據架構的組成更清晰,也希望可以協助大家在挑戰數據工程時有個查詢的清單。

Gartner曾在2005評估市場上有50%的資料倉儲專案會失敗,原因是缺乏對數據品質問題的關注(連結)。市場經過這些年的經驗積累,已經可以知道數據品質不應該是資料倉儲專案才開始關注,數據可靠性驗證若可以在數據供應鍊中向前移動(連結),會帶來更好的數據品質,這與現在數據工程與系統軟體工程密切整合才能發揮數據價值的概念相同。

為了達到數據工程架構可與系統軟體工程架構密切整合,數據工程師必須具備數據架構中每個組件的關鍵概念,以達到維持數據架構的完整性,及與系統軟體工程架構整合及發展。

我們來啟動這台超級跑車吧!

張貼留言

0 留言

Close Menu