データレイク
でーたれいく
Data Lake
一言でいうと
形式を問わず生データをそのまま大量保管する、企業のデータの貯水池のこと。
詳しい意味
データレイクは、構造化データ(DBのテーブル)も非構造化データ(ログ・画像・PDF・音声)も区別なく、生データのまま大量に保管できるストレージ基盤です。S3 や Google Cloud Storage の上に構築するのが一般的。「先に貯めて、必要な時に取り出して使う(schema-on-read)」が特徴で、データウェアハウス(事前にきれいに整形して入れる)と対比されます。最近は「データレイクハウス(Lakehouse)」と呼ばれる、レイクの柔軟性とDWHの分析性能を統合する構成(Databricks / Iceberg / Delta Lake)が主流。AI / ML のトレーニング用データ集積、ログ集約、長期アーカイブにも使われます。
何に使うか
ログ・センサー・行動履歴など多様な形式のデータを集約したいとき。AI/MLのトレーニングデータを保管するとき。「将来何の分析に使うか分からないけど捨てたくない」データの保管。
どんな時に出るか
「データレイクに集約」「レイクハウス構成」「S3にデータレイクを構築」といった場面で登場します。
具体例
- ログとセンサーデータを S3 のデータレイクに集約し、必要に応じて BigQuery で分析している。
- データレイクハウスとして Iceberg + Spark で構築した。
別名・略称
data lake(でーたれいく)lakehouse(れいくはうす)データレイクハウス(でーたれいくはうす)
間違えやすい語
初心者向けメモ
町の「巨大な貯水池」のようなものです。雨水(業務DB)も山水(ログ)も湧水(センサー)も区別なく流れ込んで一旦貯まる。後から「料理に使う」「洗濯に使う」と用途別に汲み上げる。データウェアハウスは「ろ過 + 浄水 + 配管整備済」で水道水にしてから貯める方式。