目錄
資料市集(Data Mart)
資料市集(Data Mart)是一種主題導向的資料庫,可視為「企業資料倉儲(Data Warehouse)」的分割區段。
它以 業務單位/領域 為劃分基準,例如同一家公司通常會為 財務、行銷、供應鏈 分別建立獨立的資料市集。
示意圖
資料市集(Data Mart)是資料倉儲(Data Warehouse)的後續應用,在 Data Warehouse 從各式各樣的地方收資料後,再根據業務單位與領域分送給各主題的 Data Mart,例如財務、行銷等。
Data Mart 優勢
優勢 | 說明 |
---|---|
查詢效能佳 | 只需讀取資料子集,報表速度通常優於直接查詢整座資料倉儲; 所需的 運算與維運成本 也更低。 |
領域彈性高 | 專注單一業務領域,使用者可自助調整 欄位與彙總規則,鼓勵更大的商業部門參與度。 |
Data Mart 劣勢
劣勢 | 說明 |
---|---|
資料品質風險 | 若與母體資料倉儲同步不佳,易產生 數據不一致 問題。 |
實作挑戰 | 設計不良會隨時間衍生 複雜度與不一致,反而增加維護成本。 |
何時該用?
各業務單位需要看他們的資料的時候。
在三大雲端服務的工具名詞對照表
那在 AWS、GCP 跟 Azure 這三大雲端服務中,又該如何運用資料市集的概念呢?
AWS(Amazon Web Services)
類別 | 主要服務 | 資料市集典型用途 | 亮點特色 |
---|---|---|---|
核心引擎 | Amazon Redshift(Provisioned/Serverless) | 建立部門級子叢集或 namespace 作為 Finance、Marketing… 等 Data Mart | 支援 Data Sharing 在低延遲下跨叢集即時查詢;Serverless 秒級擴縮、按量計費 :contentReference[oaicite:0]{index=0} |
外部查詢 | Redshift Spectrum、Athena | 直接查詢 S3 Lake House 中的原始/半結構化資料 | 無須複製即可補足 Data Mart 缺乏的資料 |
ETL/CDC | AWS Glue(Spark)、DMS、Kinesis Firehose | 批次或串流將來源資料切割後匯入各 Data Mart | Glue 低程式碼轉換;DMS 持續同步多 DB 資料源 :contentReference[oaicite:1]{index=1} |
權限治理 | Lake Formation、IAM | 行列層級存取控制,確保市集與 EDW 一致 | 與 Redshift 授權整合,可設定部門專屬權限 |
自助分析 | Amazon QuickSight | 部門使用者建立 Dashboard | SPICE 快取+ML Insights,秒級互動分析 |
GCP(Google Cloud Platform)
類別 | 主要服務 | 資料市集典型用途 | 亮點特色 |
---|---|---|---|
核心引擎 | BigQuery(Standard/Enterprise) | 以 專案+Dataset 隔離不同業務領域的 Data Mart | 完全 Serverless;BI Engine 子集快取加速 |
外部查詢 / Lakehouse | BigLake、External Tables | 同步查詢 GCS、Iceberg/Delta Parquet | 單一權限層+跨格式 |
ETL/CDC | Dataflow(Beam)、Datastream、Pub/Sub | 批次+串流匯入部門資料 | Dataflow 一份程式碼同時批流;Datastream 原生 MySQL/Oracle CDC |
治理 / 目錄 | Dataplex、Data Catalog | 資料註冊、品質規則、分區生命週期 | 自動掃描並標籤資料等級 |
自助分析 | Looker/Looker Studio | 建立部門維度模型與報表 | LookML 語意層,支援行級權限 |
Azure
類別 | 主要服務 | 資料市集典型用途 | 亮點特色 |
---|---|---|---|
核心引擎 | Azure Synapse Analytics(Dedicated/Serverless SQL) Power BI Datamart |
Synapse SQL Pool 切分子資料庫;Power BI 低碼 Datamart(含 Auto ETL) | Synapse 同時支援 Spark+SQL;Datamart 直接在 Power BI 內建 SQL 端點 :contentReference |
外部查詢 / Lakehouse | ADLS Gen2、OneLake(Fabric) | 延伸查詢未進倉的資料 | HDFS API+全球命名空間 |
ETL/CDC | Data Factory、Synapse Pipelines、Event Hubs | GUI Mapping Data Flows 與串流匯入 | 原生 Git 與 Azure DevOps CI/CD |
治理 / 目錄 | Microsoft Purview | 元資料、血緣、自動分類 | 跨 SQL、Cosmos DB、Storage |
自助分析 | Power BI(含 Data Mart、Copilot) | 部門自行建模與報表 | M365 生態整合,自然語言 Q&A :contentReference |
雲端工具對照表
功能 / 層面 | AWS | GCP | Azure |
---|---|---|---|
建立 Data Mart 的主要服務 | Redshift schema / cluster / namespace | BigQuery Project+Dataset | Synapse SQL Pool / Power BI Datamart |
即時外部查詢 | Redshift Spectrum、Athena | BigLake、External Tables | Synapse Serverless SQL |
批次 ETL / ELT | AWS Glue、DMS | Dataflow、Data Transfer Service | Data Factory、Synapse Pipelines |
串流攝取 / CDC | Kinesis Streams/Firehose | Pub/Sub、Datastream | Event Hubs、Stream Analytics |
資料湖整合 | S3 + Lake Formation | GCS + BigLake | ADLS Gen2/OneLake |
治理 / 目錄 | Lake Formation、Glue Catalog | Dataplex、Data Catalog | Microsoft Purview |
自助 BI | QuickSight | Looker/Looker Studio | Power BI |
關鍵優勢 | Data Sharing、Serverless Elasticity | 全託管、BI Engine 加速 | Spark+SQL 混合、Power BI 原生市集 |
參考資料
https://dataengineering.wiki/Concepts/Data+Architecture/Data+Mart
Latest posts by 數據女巫 𝔻.𝕡𝕪𝕤 🔮 (see all)
- [資料工程筆記] 資料市集(Data Mart)介紹與在三大雲端服務的工具名詞對照 - 2025-07-25
- [資料工程筆記] 資料倉儲(Data Warehouse)介紹與在三大雲端服務的工具名詞對照 - 2025-07-23
- [資料工程筆記] 資料湖(Data Lake)介紹與在三大雲端服務的工具名詞對照 - 2025-07-21