大數據與機器學習 PART 3: Big Data with BigQuery

❝ BigQuery 主要功能為存儲和分析,是完全託管無服務器 (managed serverless) 的資料倉儲 (data warehouse),透過 SQL 、BI 工具、 ML 工具等操作 BigQuery 中的數據集 (dataset),並且內建機器學習功能。 ❞

圖卡:BigQuery主要功能為存儲及分析

存儲和分析

BigQuery 可以從不同來源提取數據,包含:

① 儲存在 BigQuery 中的數據 (internal data);
② 外部數據 (external data):例如 Cloud Storage 或 Spanner 或 Google Drive 中的 CSV 檔案。直接讀取外部數據並不會將數據導入至 BigQuery 中,會有數據不一致的風險;
③ 多雲數據 (multi-Cloud data):例如 AWS 或 Azure 中的數據集;
④ 公開數據 (public data-sets):例如其他網站公開數據集。

BigQuery 可以透過三種方式將數據載入:① 批次載入 (batch load);② 串流載入 (streaming);③ 透過 SQL 產生數據後載入 (generated data)。

BigQuery 分析可使用以下查詢:

① 即時分析 (ad hoc analysis by standard SQL)、
② 地理空間分析 (geospatial analytics by SQL geography functions)、
③ 商業智慧儀表板 (by BigQuery BI Engine)、
④ 機器學習模型 (by BigQuery ML)、
⑤ 批次查詢 (batch queries) 將查詢進行排隊,資源空閒時查詢。


BigQuery ML 介紹

BigQuery ML 分成兩步驟建立模型:① 使用 SQL 建立模型;② 使用 SQL 編寫預測查詢。後續動作還包含 ③ 模型評估及 ④ 參數調整。

BigQuery ML 支持以下兩種模型:

① 監督模型 (supervised models):任務驅動的並確定目標 (task driven and identify a goal),把資料標記 (label),透過機器學習進行目標特徵的偵測;
② 非監督模型 (unsupervised models):數據驅動的並識別模式 (data driven and identify a pattern),所以資料都沒有標記,由機器學習自己進行分類。

BigQuery ML 支持機器學習的製作作業流程 (MLOps) 包含模型的部署、監控、和管理 (deploy, monitor and manage) 。 例如使用 TensorFlow 模型進行批量預測、透過 BigQuery ML 進行線上預測、或是使用 Cloud AI Vizier 進行參數調整。


BigQuery 機器學習的階段

① 將數據專入至 BigQuery;
② 選擇及預處理特徵值 (features):使用 SQL 建立訓練數據集 (training dataset),及進行資料預處理,例如分類變數的編碼;
③ 建立模型及訓練模型;
④ 評估訓練後的模型在評估數據集 (evaluation dataset) 的表現,例如分析指標 (metrics) 的數值;
⑤ 進行預測以取得結果數據。


※ 下一個部分來看看如何在 BigQuery 開發模型 

source: coursera

張貼留言

0 留言

Close Menu