0%
Loading ...

[資料工程筆記] 資料市集(Data Mart)介紹與在三大雲端服務的工具名詞對照

image 1753433758982

資料市集(Data Mart)

資料市集(Data Mart)是一種主題導向的資料庫,可視為「企業資料倉儲(Data Warehouse)」的分割區段。
它以 業務單位/領域 為劃分基準,例如同一家公司通常會為 財務、行銷、供應鏈 分別建立獨立的資料市集。

示意圖

file

資料市集(Data Mart)是資料倉儲(Data Warehouse)的後續應用,在 Data Warehouse 從各式各樣的地方收資料後,再根據業務單位與領域分送給各主題的 Data Mart,例如財務、行銷等。

Data Mart 優勢

優勢 說明
查詢效能佳 只需讀取資料子集,報表速度通常優於直接查詢整座資料倉儲;
所需的 運算與維運成本 也更低。
領域彈性高 專注單一業務領域,使用者可自助調整 欄位與彙總規則,鼓勵更大的商業部門參與度。

Data Mart 劣勢

劣勢 說明
資料品質風險 若與母體資料倉儲同步不佳,易產生 數據不一致 問題。
實作挑戰 設計不良會隨時間衍生 複雜度與不一致,反而增加維護成本。

何時該用?

各業務單位需要看他們的資料的時候。


在三大雲端服務的工具名詞對照表

那在 AWS、GCP 跟 Azure 這三大雲端服務中,又該如何運用資料市集的概念呢?

AWS(Amazon Web Services)

類別 主要服務 資料市集典型用途 亮點特色
核心引擎 Amazon Redshift(Provisioned/Serverless) 建立部門級子叢集或 namespace 作為 Finance、Marketing… 等 Data Mart 支援 Data Sharing 在低延遲下跨叢集即時查詢;Serverless 秒級擴縮、按量計費 :contentReference[oaicite:0]{index=0}
外部查詢 Redshift Spectrum、Athena 直接查詢 S3 Lake House 中的原始/半結構化資料 無須複製即可補足 Data Mart 缺乏的資料
ETL/CDC AWS Glue(Spark)、DMS、Kinesis Firehose 批次或串流將來源資料切割後匯入各 Data Mart Glue 低程式碼轉換;DMS 持續同步多 DB 資料源 :contentReference[oaicite:1]{index=1}
權限治理 Lake Formation、IAM 行列層級存取控制,確保市集與 EDW 一致 與 Redshift 授權整合,可設定部門專屬權限
自助分析 Amazon QuickSight 部門使用者建立 Dashboard SPICE 快取+ML Insights,秒級互動分析

GCP(Google Cloud Platform)

類別 主要服務 資料市集典型用途 亮點特色
核心引擎 BigQuery(Standard/Enterprise) 專案+Dataset 隔離不同業務領域的 Data Mart 完全 Serverless;BI Engine 子集快取加速
外部查詢 / Lakehouse BigLake、External Tables 同步查詢 GCS、Iceberg/Delta Parquet 單一權限層+跨格式
ETL/CDC Dataflow(Beam)、Datastream、Pub/Sub 批次+串流匯入部門資料 Dataflow 一份程式碼同時批流;Datastream 原生 MySQL/Oracle CDC
治理 / 目錄 Dataplex、Data Catalog 資料註冊、品質規則、分區生命週期 自動掃描並標籤資料等級
自助分析 Looker/Looker Studio 建立部門維度模型與報表 LookML 語意層,支援行級權限

Azure

類別 主要服務 資料市集典型用途 亮點特色
核心引擎 Azure Synapse Analytics(Dedicated/Serverless SQL)
Power BI Datamart
Synapse SQL Pool 切分子資料庫;Power BI 低碼 Datamart(含 Auto ETL) Synapse 同時支援 Spark+SQL;Datamart 直接在 Power BI 內建 SQL 端點 :contentReference
外部查詢 / Lakehouse ADLS Gen2、OneLake(Fabric) 延伸查詢未進倉的資料 HDFS API+全球命名空間
ETL/CDC Data Factory、Synapse Pipelines、Event Hubs GUI Mapping Data Flows 與串流匯入 原生 Git 與 Azure DevOps CI/CD
治理 / 目錄 Microsoft Purview 元資料、血緣、自動分類 跨 SQL、Cosmos DB、Storage
自助分析 Power BI(含 Data Mart、Copilot) 部門自行建模與報表 M365 生態整合,自然語言 Q&A :contentReference

雲端工具對照表

功能 / 層面 AWS GCP Azure
建立 Data Mart 的主要服務 Redshift schema / cluster / namespace BigQuery Project+Dataset Synapse SQL Pool / Power BI Datamart
即時外部查詢 Redshift Spectrum、Athena BigLake、External Tables Synapse Serverless SQL
批次 ETL / ELT AWS Glue、DMS Dataflow、Data Transfer Service Data Factory、Synapse Pipelines
串流攝取 / CDC Kinesis Streams/Firehose Pub/Sub、Datastream Event Hubs、Stream Analytics
資料湖整合 S3 + Lake Formation GCS + BigLake ADLS Gen2/OneLake
治理 / 目錄 Lake Formation、Glue Catalog Dataplex、Data Catalog Microsoft Purview
自助 BI QuickSight Looker/Looker Studio Power BI
關鍵優勢 Data Sharing、Serverless Elasticity 全託管、BI Engine 加速 Spark+SQL 混合、Power BI 原生市集

參考資料

https://dataengineering.wiki/Concepts/Data+Architecture/Data+Mart

數據女巫 𝔻.𝕡𝕪𝕤 🔮

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The reCAPTCHA verification period has expired. Please reload the page.