16. FAISS에 대한 모든 것

FAISS는 고차원 벡터 데이터의 유사성 검색을 빠르게 수행하는 도구입니다. 다양한 인덱스 유형, GPU 지원, 사용자 정의 인덱스 등을 제공하며, 딥러닝 분야에서 이미지, 텍스트, 음성 등의 검색에 널리 사용됩니다. 이를 사용하려면 벡터 변환과 인덱스 생성에 대한 이해가 필요합니다. 오늘은 FAISS에 대해 소개해드리겠습니다.

faiss

FAISS 소개

파시스 란 무엇인가?

FAISS (Facebook AI Similarity Search)는 페이스북 AI 연구팀(Facebook AI Research, FAIR)에서 개발한 라이브러리로, 대량의 고차원 벡터에서 유사성 검색 및 클러스터링을 빠르고 효율적으로 수행할 수 있습니다. 파시스는 특히 딥 러닝에서 생성된 대량의 벡터 데이터에 대한 연산을 처리하는 데에 최적화되어 있습니다.

파시스를 사용하는가?

대용량의 데이터를 다루는 딥 러닝 분야에서는 벡터 간 유사성을 찾는 것이 일반적인 요구사항입니다. 이를 위해 전통적인 방법으로는 유클리드 거리나 코사인 유사성 같은 메트릭을 사용하여 모든 벡터 쌍 사이의 거리를 계산합니다. 하지만 이러한 방법은 계산량이 많아 대량의 데이터에 대해 비효율적이며, 시간도 많이 소요됩니다. 이러한 문제를 해결하기 위해 파시스는 양자화 및 압축, 색인 생성 등의 여러 최적화 기법을 사용하여 대량의 고차원 벡터에서 유사 벡터를 빠르게 찾을 수 있게 합니다.

FAISS의 주요 기능

파시스는 두 가지 주요 기능을 제공합니다.

유사성 검색: 파시스는 벡터 공간에서 가장 가까운 이웃 벡터를 효과적으로 찾아내는 기능을 제공합니다. 이는 예를 들어 이미지, 텍스트, 사운드 등 다양한 유형의 데이터에 대한 유사성 기반 검색에 사용될 수 있습니다.

벡터 양자화: 파시스는 벡터 데이터를 압축하고 저장하는 데 사용되는 벡터 양자화 기능도 제공합니다. 이 기능은 대량의 데이터를 효율적으로 저장하고, 메모리 사용량을 줄이는 데 도움이 됩니다.

FAISS 작동 원리

파시스의 핵심 개념은 인덱스(index) 생성입니다. 인덱스는 벡터 데이터의 구조를 나타내는 메타데이터로 볼 수 있으며, 이를 통해 효율적인 검색이 가능해집니다. 파시스는 먼저 데이터를 양자화하여 인덱스를 생성하고, 이후 이 인덱스를 사용하여 유사성 검색을 수행합니다.

이 과정에서 파시스는 복잡한 벡터 공간을 작은 ‘클러스터’로 분할하는데, 각 클러스터는 그 안의 벡터들이 서로 유사하다는 점에서 차별성을 가집니다. 클러스터링은 원본 벡터 공간을 더 작고, 이해하기 쉽고, 계산하기 편한 공간으로 변환하는 역할을 합니다. 이렇게 생성된 클러스터는 원래의 대량 데이터 대신 사용될 수 있으며, 각 클러스터는 원본 데이터의 ‘대표’ 또는 ‘중심’을 나타내게 됩니다.

FAISS의 사용법

FAISS를 사용하려면 먼저 필요한 벡터 데이터를 로드하고, 이를 파시스 인덱스에 추가하는 과정을 거쳐야 합니다. 그 다음으로는 인덱스를 학습시키고, 이를 사용하여 유사성 검색을 수행할 수 있습니다.

파시스 인덱스를 학습시키는 과정은 크게 두 단계로 나눌 수 있습니다. 먼저, 전체 벡터 데이터셋에 대한 ‘전역’ 클러스터링을 수행합니다. 이렇게 생성된 전역 클러스터는 벡터 공간을 광범위하게 커버하게 됩니다. 그 다음 단계에서는 각 전역 클러스터 내에서 추가적인 ‘로컬’ 클러스터링을 수행하여, 클러스터의 수를 늘리고 벡터 공간을 더욱 세밀하게 나눕니다.

검색을 수행할 때는 쿼리 벡터를 입력으로 받아서, 이와 가장 유사한 벡터들을 인덱스에서 찾아 반환합니다. 이는 인덱스 내의 각 클러스터에 대해 계산되며, 가장 유사도가 높은 클러스터들이 결국 반환 결과로 선택됩니다.

파시스는 대량의 고차원 벡터 데이터에 대한 유사성 검색을 효과적으로 수행할 수 있는 강력한 도구입니다. 이 라이브러리를 통해 복잡한 벡터 공간을 효과적으로 분해하고, 이를 통해 데이터를 이해하고 조작하는 데 필요한 복잡성을 크게 줄일 수 있습니다. FAISS는 많은 딥러닝 애플리케이션에서 유용하게 사용될 수 있으며, 그 가능성은 아직까지도 끝없이 확장되고 있습니다.

FAISS 인덱스의 상세 설명

파시스의 세부 컴포넌트

파시스는 크게 2가지 주요 컴포넌트로 이루어져 있습니다. 인덱싱(Indexing) 부분과 검색(Search) 부분입니다. 인덱싱 부분에서는 대량의 고차원 벡터 데이터를 관리하고, 이 데이터로부터 인덱스를 구축합니다. 반면에 검색 부분에서는 이렇게 구축된 인덱스를 활용하여 특정 쿼리 벡터와 가장 유사한 벡터들을 찾아냅니다.

FAISS의 인덱스 유형

파시스는 다양한 유형의 인덱스를 지원합니다. 가장 기본적인 유형의 인덱스는 ‘플랫(flat)’ 인덱스로, 이는 간단히 모든 벡터 간의 거리를 계산하는 방식입니다. 그러나 이러한 방식은 매우 비효율적이기 때문에, 파시스는 추가적으로 ‘계층적(hierarchical)’ 인덱스와 ‘제품(product)’ 인덱스를 지원합니다. 계층적 인덱스는 벡터 공간을 여러 계층으로 나누어 검색을 최적화하며, 제품 인덱스는 여러 벡터를 조합하여 더 복잡한 벡터를 생성하고 이를 인덱스화합니다.

FAISS와 파이썬

파시스는 C++로 작성되었지만, 파이썬에서도 쉽게 사용할 수 있도록 파이썬 바인딩을 제공합니다. 다음은 FAISS를 사용하여 인덱스를 생성하고 검색을 수행하는 간단한 파이썬 코드 예시입니다.

# 파시스 설치하기 
!pip install faiss 

--- 


import faiss
import numpy as np


# 데이터 생성
dimension = 128  # 벡터의 차원
database_size = 10000  # 데이터베이스 크기
np.random.seed(1)  # 일관된 결과를 얻기 위해 시드 설정
# 데이터베이스 벡터 생성
db_vectors = np.random.random((database_size, dimension)).astype('float32')  


# 파시스 인덱스 생성
index = faiss.IndexFlatL2(dimension)  # L2 거리를 사용하는 플랫 인덱스 생성
assert index.is_trained  # 플랫 인덱스는 훈련이 필요 없으므로, 항상 훈련된 상태입니다.
index.add(db_vectors)  # 인덱스에 벡터 추가


# 검색 수행
num_nearest_neighbors = 4  # 가장 가까운 4개의 이웃을 찾습니다.
query_vector = np.random.random((1, dimension)).astype('float32')  # 쿼리 벡터 생성
distances, indices = index.search(query_vector, num_nearest_neighbors)  # 검색 수행


위 코드는 가장 기본적인 파시스의 사용 예시를 보여줍니다. 실제로는 이보다 훨씬 더 복잡한 인덱스 구조를 사용하거나, GPU를 활용한 병렬 처리 등이 가능합니다. 먼저, 데이터와 인덱스를 GPU로 이동시킵니다. 그 후에 인덱스를 사용하여 쿼리 벡터에 대한 가장 가까운 이웃을 검색합니다. 아래는 이를 구현한 파이썬 코드입니다.

import numpy as np
import faiss

# 데이터 생성
d = 128                            # 벡터의 차원
nb = 1000000                       # 데이터베이스 크기
nq = 10000                         # 쿼리 벡터의 수
np.random.seed(1234)             # 결과의 일관성을 위한 시드 설정
xb = np.random.random((nb, d)).astype('float32')
xq = np.random.random((nq, d)).astype('float32')

# GPU 리소스 설정
res = faiss.StandardGpuResources()  # GPU 리소스 객체 생성

# 인덱스 생성 및 데이터 추가
index_flat = faiss.IndexFlatL2(d)   # L2 거리를 사용하는 인덱스 생성
gpu_index_flat = faiss.index_cpu_to_gpu(res, 0, index_flat) # 인덱스를 GPU로 전송
gpu_index_flat.add(xb)              # 인덱스에 데이터 추가

# 검색 수행
k = 4                                # 가장 가까운 이웃의 수
D, I = gpu_index_flat.search(xq, k)  # 쿼리 벡터에 대해 가장 가까운 이웃 검색

# 결과 출력
print(I[:5])                         # 처음 5개의 쿼리 결과 출력
print(I[-5:])                        # 마지막 5개의 쿼리 결과 출력

파시스의 장점과 한계

파시스의 가장 큰 장점은 빠르고 효율적인 유사성 검색 기능을 제공한다는 것입니다. 특히 대량의 고차원 벡터 데이터에 대해 뛰어난 성능을 보여주며, 이는 딥 러닝과 같은 분야에서 매우 중요한 요소입니다.

또한, 파시스는 벡터 데이터를 효과적으로 압축하여 저장하는 기능을 제공합니다. 이는 저장 공간을 절약할 뿐 아니라, 메모리를 효율적으로 사용하여 검색 성능을 향상시키는데도 도움이 됩니다.

하지만 파시스의 한계도 존재합니다. 파시스는 벡터 간 유사성을 계산하는 기능에 집중하고 있으므로, 텍스트나 카테고리형 데이터와 같은 비벡터형 데이터에 대해서는 직접적으로 처리할 수 없습니다. 이러한 데이터를 벡터 형태로 변환하는 과정이 필요하며, 이를 위해 일반적으로 워드 임베딩(word embedding)이나 원-핫 인코딩(one-hot encoding)과 같은 기법이 사용됩니다.

또한, 파시스는 유사성 검색을 위해 특정 구조를 가진 인덱스를 생성하므로, 데이터의 구조에 따라 인덱스 생성 시간이 길어질 수 있습니다. 특히 데이터가 매우 클 경우, 인덱스 생성에 상당한 시간이 소요될 수 있습니다.

파시스는 대량의 고차원 벡터 데이터에 대한 유사성 검색을 빠르고 효율적으로 수행할 수 있는 강력한 도구입니다. 파시스는 벡터 데이터의 압축 및 저장, 그리고 유사성 검색 기능을 제공하며, 딥 러닝과 같은 분야에서 효과적으로 사용될 수 있습니다. 그러나 파시스를 사용하기 위해서는 데이터를 벡터 형태로 변환하고, 적절한 인덱스를 생성하는 과정이 필요하므로, 이러한 과정을 이해하고 관리할 수 있는 능력이 필요합니다.

FAISS의 활용 사례

파시스는 다양한 활용 사례를 가지고 있습니다. 특히 딥 러닝 분야에서는 이미지, 텍스트, 음성 등 다양한 유형의 데이터에 대한 유사성 검색에 널리 사용됩니다.

이미지 검색: 이미지를 벡터로 변환하는 딥 러닝 모델(예: CNN)을 사용하면, 파시스를 활용하여 유사한 이미지를 빠르게 찾아낼 수 있습니다. 이는 이미지 기반의 추천 시스템, 또는 비슷한 이미지를 찾는 검색 엔진 등에 활용될 수 있습니다.

텍스트 검색: 워드 임베딩이나 문장 임베딩을 활용하여 텍스트를 벡터로 변환하면, 파시스를 이용해 특정 문장과 유사한 문장을 빠르게 검색할 수 있습니다. 이는 정보 검색, 자연어 처리, 문서 분류 등 다양한 분야에서 사용될 수 있습니다.

음성 검색: 음성을 벡터로 변환하는 딥 러닝 모델(예: RNN)을 이용하면, 파시스를 활용해 특정 음성과 유사한 음성을 찾아낼 수 있습니다. 이는 음성 인식, 음성 기반의 검색 엔진, 음성 데이터 관리 등에 활용될 수 있습니다.

FAISS의 확장성

파시스는 GPU를 지원하므로 대량의 데이터에 대한 연산을 병렬 처리하여 빠르게 수행할 수 있습니다. 이는 파시스의 확장성을 크게 향상시키며, 딥 러닝에서 생성되는 대규모 데이터를 처리하는 데 매우 유용합니다.

또한, 파시스는 사용자가 복잡한 인덱스 구조를 생성하고 사용자 정의 인덱스를 정의할 수 있도록 해줍니다. 이를 통해 사용자는 자신의 특정 요구 사항에 맞는 최적의 검색 알고리즘을 설계하고 구현할 수 있습니다.

FAISS에 대한 후속 고민

파시스는 빠르고 효율적인 유사성 검색을 가능하게 하는 강력한 도구이지만, 그 사용은 데이터의 특성, 필요한 정확도, 사용 가능한 컴퓨팅 리소스 등 여러 요인을 고려해야 합니다. 이러한 요인들은 각자의 프로젝트와 문제에 따라 달라지므로, 파시스를 적용하기 전에 충분한 고민과 실험이 필요합니다.

파시스의 핵심 개념과 기능을 이해하고, 각자의 상황에 맞게 적절히 적용하면, 고차원 벡터 데이터를 효과적으로 관리하고 이해하는 데 큰 도움이 될 것입니다. 이를 통해 딥 러닝과 같은 분야에서 복잡한 데이터를 효과적으로 다루는 데 필요한 인사이트를 얻을 수 있을 것입니다.

관련 링크

  1. 파시스 GitHub Repository: https://github.com/facebookresearch/faiss
    • 파시스의 소스 코드, 예제, 설명서 등이 있는 공식 GitHub 저장소입니다.
  2. 파시스 Wiki: https://github.com/facebookresearch/faiss/wiki
    • ㅍ의 설치 방법, 사용 방법, 질문과 답변 등이 있는 공식 Wiki 페이지입니다.
  3. 파시스 Tutorial: https://github.com/facebookresearch/faiss/wiki/Getting-started
    • 파시스를 시작하는 데 도움이 되는 튜토리얼이 있는 페이지입니다.
  4. https://dajeblog.co.kr/text-preprocessingfeat-tokenization-cleaning-normalization-stopwords-building-vocab-integer-encoding-padding-vectorization-%ed%85%8d%ec%8a%a4%ed%8a%b8-%ec%a0%84%ec%b2%98%eb%a6%ac-%ea%b3%bc/
  5. https://dajeblog.co.kr/%eb%85%bc%eb%ac%b8-%eb%a6%ac%eb%b7%b0-transformer-attention-all-you-need/
  6. https://dajeblog.co.kr/quiet-attention%ea%b3%bc-base-attention%ec%9d%98-%eb%b2%84%ea%b7%b8/
  7. https://dajeblog.co.kr/%eb%85%bc%eb%ac%b8-%eb%a6%ac%eb%b7%b0-llama2/

마치며

파시스는 고차원 벡터 데이터에 대한 유사성 검색을 빠르게 수행하는 강력한 도구입니다. 다양한 유형의 인덱스와 GPU 지원, 사용자 정의 인덱스 등 다양한 기능을 제공합니다. 이런 기능들을 이해하고 적절히 활용하면, 대량의 벡터 데이터를 효율적으로 관리하고 유사성 검색을 수행할 수 있습니다. 이는 이미지 검색, 텍스트 검색, 음성 검색 등 다양한 활용 사례에서 유용하게 쓰일 수 있습니다. 그러나 파시스를 사용하기 위해서는 데이터를 벡터 형태로 변환하고, 적절한 인덱스를 생성하는 과정이 필요하며, 이러한 과정을 이해하고 관리할 수 있는 능력이 필요합니다.

1 thought on “16. FAISS에 대한 모든 것”

답글 남기기