エンベディング
えんべでぃんぐ
Embedding
一言でいうと
文章や画像を「意味の近さで距離が決まる数値ベクトル」に変換したもののこと。
詳しい意味
エンベディング(ベクトル埋め込み)は、文章・画像・音声などのデータを、「意味の近さが距離(コサイン類似度など)として表せる」数値ベクトルに変換したものです。たとえば「犬」「猫」「ペット」は近い位置に、「犬」「自動車」は離れた位置に配置されます。エンベディングを「ベクトルDB(Pinecone / Weaviate / pgvector など)」に保管することで、「意味で似ているものを高速に検索」できるようになり、これが RAG(検索拡張生成)や類似記事検索、レコメンドの基盤になります。OpenAI の text-embedding-3、Cohere、Vertex AI などが代表的な生成モデルです。
何に使うか
RAGの検索基盤を作るとき。社内文書の意味検索を実装するとき。類似記事・類似ユーザーのレコメンドを作るとき。
どんな時に出るか
「エンベディングして保存」「ベクトル検索」「embedding model何使う?」といった場面で登場します。
具体例
- 社内文書を全てエンベディング化して、pgvector でセマンティック検索を実現した。
- ユーザー行動をエンベディングして、類似ユーザーへのレコメンドを実装した。
別名・略称
embedding(えんべでぃんぐ)vector embedding(べくたーえんべでぃんぐ)ベクトル化(べくとるか)
初心者向けメモ
「言葉や画像の住所」を作るイメージです。「犬」と「猫」は近所、「犬」と「自動車」は別の街、というふうに、近い意味のものは近い場所に配置されます。住所さえ決まれば「近所の人を全部リストアップ」のような検索が一瞬でできます。