GLOSSA

データレイク

でーたれいく

Data Lake

一言でいうと

形式を問わず生データをそのまま大量保管する、企業のデータの貯水池のこと。

詳しい意味

データレイクは、構造化データ(DBのテーブル)も非構造化データ(ログ・画像・PDF・音声)も区別なく、生データのまま大量に保管できるストレージ基盤です。S3 や Google Cloud Storage の上に構築するのが一般的。「先に貯めて、必要な時に取り出して使う(schema-on-read)」が特徴で、データウェアハウス(事前にきれいに整形して入れる)と対比されます。最近は「データレイクハウス(Lakehouse)」と呼ばれる、レイクの柔軟性とDWHの分析性能を統合する構成(Databricks / Iceberg / Delta Lake)が主流。AI / ML のトレーニング用データ集積、ログ集約、長期アーカイブにも使われます。

何に使うか

ログ・センサー・行動履歴など多様な形式のデータを集約したいとき。AI/MLのトレーニングデータを保管するとき。「将来何の分析に使うか分からないけど捨てたくない」データの保管。

どんな時に出るか

「データレイクに集約」「レイクハウス構成」「S3にデータレイクを構築」といった場面で登場します。

具体例

  • ログとセンサーデータを S3 のデータレイクに集約し、必要に応じて BigQuery で分析している。
  • データレイクハウスとして Iceberg + Spark で構築した。

別名・略称

data lake(でーたれいく)lakehouse(れいくはうす)データレイクハウス(でーたれいくはうす)

関連語

データウェアハウスS3ETL

間違えやすい語

データウェアハウス

初心者向けメモ

町の「巨大な貯水池」のようなものです。雨水(業務DB)も山水(ログ)も湧水(センサー)も区別なく流れ込んで一旦貯まる。後から「料理に使う」「洗濯に使う」と用途別に汲み上げる。データウェアハウスは「ろ過 + 浄水 + 配管整備済」で水道水にしてから貯める方式。

この説明に改善点はありますか?

この説明を修正提案する新しい用語を提案する

提案は管理者が確認した後に反映されます