大數據與機器學習 PART 1: Big Data and Machine Learning on Google Cloud

❝ Google Cloud, GCP 是數據工程師及數據分析師快速實現數據服務的平台,以 SQL 或 Python 等熱門技術實現 ETL 或 BI 或 Machine Learning 等應用,讓我們不會受限於網路或資料庫等基礎建設的初期門檻,也有各種 AI API 可以直接使用。 

圖卡:Google Cloud基礎架構分為三層

中間層:計算服務 (Compute) 有四個產品

① Compute Engine 提供虛擬機的 IaaS 服務
② Google Kubernetes Engine, GKE 提供容器化應用程序
③ App Engine and Cloud Functions 提供完全託管的 PaaS 服務
④ Cloud Run 提供完全託管的計算平台

中間層:提供存儲服務 (Storage) 及託管資料庫產品

Cloud Storage 有四種存儲服務類別:Standard Storage (熱數據)、Nearline Storage (每月讀取修改的數據)、Coldline Storage (每90天讀取修改的數據)、Archive Storage (每365天讀取修改的數據)。

託管資料庫可以分為兩種類型:Transactional (交易型,標準查詢,影響少量資料)、Analytical (分析型,複雜查詢,使用全量資料)。

① Cloud SQL 交易型,使用 SQL 訪問,擴展性是本地到區域

② Cloud Spanner 交易型,使用 SQL 訪問,擴展性是全球範圍

③ Cloud Firestore 交易型,使用 NoSQL 訪問 (Cloud Firestore 是新一代的 Cloud Datastore)

④ BigQuery 分析型,使用 SQL 訪問,PB級資料倉儲

⑤ Bigtable 分析型,使用 NoSQL 訪問,real-time (實時) 及 high-throughput (高吞吐) 的應用程序

頂層:大數據及機器學習產品類別有四類

第一類是數據擷取和處理產品 (ingestion and process) 包括 ① Pub/Sub、② Dataflow、③ Dataproc、④ Cloud Data Fusion。

第二類是數據存儲產品 (data storage) 包括前述中間層的存儲服務及託管資料庫產品。

第三類是分析產品 (analytics) 包括 ④ BigQuery 及可視化工具 ⑤ Data Studio 和 ⑥ Looker。

第四類是機器學習產品 (machine learning, ML) 是  ⑦ Vertex AI。


※ 下一個部分來看看數據工程及數據管道的工具 

source: courera

張貼留言

0 留言

Close Menu