大數據與機器學習 PART 5: The Machine Learning Workflow with Vertex AI

 ❝ 使用 Vertex AI 構建機器學習工作流程的整合平台,包含數據準備 (Data Preparation)、模型訓練 (Model Training)、模型評估 (Model Evaluation)、模型部署 (Model Deployment)、及模型監控 (Model Monitoring) ❞

圖卡:使用 Vertex AI 構建機器學習工作流程的整合平台

機器學習過程的三個階段:

① 數據準備 (data preparation) 包含數據上傳 (data uploading) 和特徵工程 (feature engineering) 兩個步驟;
② 模型訓練 (model training) 模型訓練和模型評估 (model evaluation) 形成一個循環,透過迭代 (iterative) 取得最合適的模型;
③ 模型服務 (model serving) 透過實際使用模型取得預測結果。


數據準備

依目的準備數據後,要為數據增加標籤 (labels),標籤是模型訓練的目標。標籤可以人工增加,也可以透過 Vertex 標籤服務增加。最後將數據上傳至 Vertex AI。

特徵 (feature) 是有助於預測的因素 (factor),等於統計中的自變量 (independent variable) 或資料表中的欄 (column)。透過 Vertex AI 中 Feature Store 功能,可以將不同來源的特徵進行聚合,並存於中央存儲庫 (repository) 中以在後續建模流程中使用,以達到特徵工程的結果是可重用的 (reusable)。


模型訓練 (Model Training)

人工智能是一個總稱,包括所有電腦模仿人類智能的事物。

機器學習是人工智能的一個子集,主要分為監督學習 (supervised learning) 及無監督學習 (unsupervised learning)。

監督學習是任務驅動的 (task-driven) 並確定一個目標 (goal),無監督學習是數據驅動的 (data-driven) 並且可以識別模式 (pattern)。監督學習為每個數據點 (data point) 提供標籤 (label) 或答案,而無監督學習則沒有。

監督學習有兩種主要類型:

① 分類 (classification):用來預測分類的變量 (categorical variable);
② 回歸模型 (regression model):用來預測連續的數字 (continuous number)。

無監督學習主要分為三種類型:

① 聚類 (clustering):將具有相似特徵的數據點組合在一起;
② 關聯 (association):識別潛在的關係,例如兩種產品之間的相關性;
③ 降維 (dimensionality reduction):減少數據集中特徵的數量,以提高模型的效率。


模型評估 (Model Evaluation)

Vertex AI 提供評估模型性能的基礎指標有這兩類:

① 混淆矩陣 (confusion matrix):包含預測值 (predicted values) 和實際值 (actual values) 的組合表格;

例如召回率 (recall) 和準確率 (precision) 的矩陣:
召回率等於真陽性除以真陽性和假陰性 (縱放) 的總和;
準確率等於真陽性除以真陽性和假陽性 (錯殺) 的總和。

例如 Gmail 將電子郵件分為垃圾郵件和非垃圾郵件,如果目標是捕獲最多的潛在垃圾郵件,則應優先考慮召回率;如果目標是只捕獲絕對垃圾郵件,則應優先考慮準確率。依據目的需要權衡 (trade-off)。

② 特徵重要性數值 (feature importance):說明每個特徵對預測的貢獻。


模型部署和監控 (Model Deployment and Monitoring)

MLOps 將機器學習開發作業與運維作業相結合,實踐 MLOps 來實現持續集成、持續訓練和持續交付。

模型部署的三種方案:

① 部署到端點 (deploy to an endpoint):要求低延遲或即結果時的方案;
② 批量預測部署 (deploy using batch prediction):不需要立刻回應或需要累積數據時的方案;
③ 離線預測部署 (deploy using offline prediction):在雲外特定環境執行模型的方案。

模型監控的兩種工具:

① 使用 Vertex AI Pipelines 編排工作流來自動化、監控和管理機器學習模型;
② 使用 Vertex AI Workbench 可以使用預設的管道,只需要指定組件如何組合在一起運作。


 這個系列先到這邊 

source: coursera

張貼留言

0 留言

Close Menu