データウェアハウス
でーたうぇあはうす
Data Warehouse
一言でいうと
分析用にきれいに整形されたデータを集約する、企業の意思決定基盤のこと。
詳しい意味
データウェアハウス(DWH)は、企業全体のデータを分析しやすい形に整形して集約する基盤です。BigQuery、Snowflake、Amazon Redshift が代表例。業務DBはトランザクション処理に最適化されているため、大量集計・複雑なJOINを実行すると遅く、本番に影響が出ます。DWH は分析専用の列指向ストレージと並列処理エンジンで、テラバイト級のデータを秒単位で集計できるよう設計されています。BIツール(Looker / Tableau / Metabase など)との連携や、KPI ダッシュボード・経営レポートの基盤として使われます。データレイクと違い「事前に整形(ETL)してから入れる」のが基本ですが、最近は ELT も増加。
何に使うか
経営層への売上ダッシュボードを作るとき。KPI を時系列分析したいとき。データサイエンティストが分析できる環境を整備するとき。
どんな時に出るか
「DWH に入れて分析」「BigQuery で集計」「DWH のクエリ料金が膨らんだ」といった場面で登場します。
具体例
- 本番DBから日次バッチで BigQuery にデータを集約し、経営ダッシュボードを Looker Studio で表示している。
- BigQuery のクエリ料金が上がってきたので、よく使うテーブルだけマテリアライズドビュー化した。
別名・略称
data warehouse(でーたうぇあはうす)DWH(でぃーだぶりゅーえいち)BigQuery(びっぐくえり)Snowflake(すのーふれーく)Redshift(れっどしふと)
間違えやすい語
初心者向けメモ
「整理された倉庫」のイメージです。データレイクが「貯水池に何でも放り込む」なら、DWH は「商品ジャンル別・サイズ別に棚整理された倉庫」。すぐに必要な情報を取り出して集計できる代わりに、入れる前に整理(ETL)の手間がかかります。