인덱싱과 임베딩
화
화려한 목표달성러
요새 RAG를 쓴다는 말이 많고 그에 따라 데이터를 인덱싱 한다, 임베딩 한다는 얘기가 많습니다.
저는 전부 임베딩으로 해석하고 있었는데 다르다는 걸 최근에 알게 되었습니다.
AI의 도움을 받은 인덱싱과 임베딩의 차이입니다 ㅋㅋ
인덱싱(Indexing)
- 정의: 임베딩된 벡터를 효율적으로 저장하고 검색할 수 있는 구조로 조직화하는 과정
- 목적: 대량의 벡터 데이터에서 유사한 항목을 빠르게 검색할 수 있도록 함
임베딩(Embedding)
- 정의: 텍스트, 이미지 등의 데이터를 고정된 크기의 벡터(수치 배열)로 변환하는 과정
- 목적: 의미적 유사성을 수학적으로 표현하여 검색 가능한 형태로 만듦
인덱싱은 알아보면 데이터를 구조화하는 과정으로 많이 설명됩니다.
그리고 인덱싱을 하는 방법이 여러가지인데 단순히 문서를 쪼개서(청크) 할 수도 있지만 임베딩으로 변환 후 인덱싱을 하기도 한다고 합니다.
따라서 인덱싱에는 임베딩 개념이 포함될 수 있으며 아닐 수도 있습니다.
보통은 임베딩을 하고 벡터DB에 저장하고 인덱싱을 하는 형태로 RAG를 쓸 준비를 한다고 합니다.
점
점심먹는 클릭 마니아
오 그런 차이가 있군요. 감사합니다