GLOSSA

データウェアハウス

でーたうぇあはうす

Data Warehouse

一言でいうと

分析用にきれいに整形されたデータを集約する、企業の意思決定基盤のこと。

詳しい意味

データウェアハウス(DWH)は、企業全体のデータを分析しやすい形に整形して集約する基盤です。BigQuery、Snowflake、Amazon Redshift が代表例。業務DBはトランザクション処理に最適化されているため、大量集計・複雑なJOINを実行すると遅く、本番に影響が出ます。DWH は分析専用の列指向ストレージと並列処理エンジンで、テラバイト級のデータを秒単位で集計できるよう設計されています。BIツール(Looker / Tableau / Metabase など)との連携や、KPI ダッシュボード・経営レポートの基盤として使われます。データレイクと違い「事前に整形(ETL)してから入れる」のが基本ですが、最近は ELT も増加。

何に使うか

経営層への売上ダッシュボードを作るとき。KPI を時系列分析したいとき。データサイエンティストが分析できる環境を整備するとき。

どんな時に出るか

「DWH に入れて分析」「BigQuery で集計」「DWH のクエリ料金が膨らんだ」といった場面で登場します。

具体例

  • 本番DBから日次バッチで BigQuery にデータを集約し、経営ダッシュボードを Looker Studio で表示している。
  • BigQuery のクエリ料金が上がってきたので、よく使うテーブルだけマテリアライズドビュー化した。

別名・略称

data warehouse(でーたうぇあはうす)DWH(でぃーだぶりゅーえいち)BigQuery(びっぐくえり)Snowflake(すのーふれーく)Redshift(れっどしふと)

関連語

データレイクETL

間違えやすい語

データレイク

初心者向けメモ

「整理された倉庫」のイメージです。データレイクが「貯水池に何でも放り込む」なら、DWH は「商品ジャンル別・サイズ別に棚整理された倉庫」。すぐに必要な情報を取り出して集計できる代わりに、入れる前に整理(ETL)の手間がかかります。

この説明に改善点はありますか?

この説明を修正提案する新しい用語を提案する

提案は管理者が確認した後に反映されます