본문 바로가기
AI 및 데이터 분석

협업 필터링 모델, 콘텐츠 기반 추천 시스템 - 추천시스템의 기본 모델 (1)

by riML 2023. 11. 30.

추천 시스템의 기본 모델과 평점

1. 협업 필터링 모델의 방법론

협업 필터링 모델은 여러 사용자의 평점을 협업하여 추천을 제공하는 방법입니다. 그러나 이 방법을 설계하는 가장 큰 도전은 기본이 되는 평점 행렬의 분포가 고르지 않다는 점입니다. 특히, 영화와 관련된 애플리케이션에서는 사용자가 전 세계의 영화 중 일부만을 관람했을 가능성이 크기 때문에 대부분의 평점이 명시되어 있지 않습니다. 여기서 명시된 평점은 사용자가 실제로 평가한 것을 말합니다.

협업 필터링은 발견된 평점이 높은 상관관계를 가지고 있다는 가정에서 출발합니다.  예를 들어, 사용자 A와 B가 유사한 취향을 가지고 있다면, 두 사용자의 명시된 평점이 유사하다면 그들의 유사도를 알고리즘을 통해 계산할 수 있습니다. 이 경우 한 사용자가 특정 영화에 대한 평가를 내린 경우, 다른 사용자도 유사한 평가를 내릴 가능성이 크다고 가정할 수 있습니다.

협업 필터링 방법론은 주로 아이템 간 상관관계나 사용자 간 상관관계를 예측하는 데 중점을 둡니다. 일부 모델은 두 상관관계를 모두 활용하기도 하며, 최적화 방법을 통해 모델을 훈련시키기도 합니다.

 

협업 필터링에 흔히 쓰이는 방법 두 가지는 메모리 기반 방법과 모델 기반 방법이 있습니다.

 

1) 메모리 기반 방법 : 
이 방법론은 이웃 기반 협업 필터링 알고리즘으로 알려져 있습니다. 이는 협업 필터링 알고리즘 중에서도 초기에 제안된 방법으로, 사용자와 아이템 간의 평점을 예측할 때 이웃의 정보를 기반으로 합니다.

  • 사용자 기반 협업 필터링 : 유사한 성향을 가진 사용자의 평점을 기반으로 타깃 사용자의 추천을 진행합니다. 
  • 아이템 기반 협업 필터링 : 타깃 아이템과 유사한 아이템의 평점을 기반으로 평점을 예측합니다. 사용자가 정의한 아이템 집합의 평점을 활용하여 예측을 수행합니다.

2) 모델 기반 방법 : 모델 기반 방법론은 머신러닝과 데이터 마이닝 기술을 사용하여 예측 모델을 만듭니다. 파라미터 값은 최적화를 통해 학습되며, 의사 결정 트리, 룰 기반 모델, 베이지안 방법론, 잠재요인 모형 등이 사용됩니다.

 

이러한 방법을 통해 협업 필터링은 사용자에게 맞춤화된 추천을 제공하고, 명시되지 않은 평점에 대한 예측을 수행합니다.

 

2. 평점의 종류


추천 알고리즘의 설계는 평점 추적 시스템에 큰 영향을 받습니다. 평점은 아이템에 대한 사용자의 선호도를 정량적으로 나타내는 데 사용되며, 여러 종류의 평점 척도가 존재합니다.

1) 인터벌 기반 평점: 주로 순서가 있는 서로 다른 숫자의 인터벌로 표현됩니다. 예를 들어, {-2, -1, 0, 1, 2}와 같은 집합에서 다섯 포인트의 평가 체계는 -2가 매우 싫음을 나타내고, 2는 매우 좋음을 의미합니다.

2) 서수평점: 순서형 범주형 값을 사용하여 평가합니다. 예를 들어, {강한 비동의, 비동의, 중립, 동의, 강한 동의}와 같은 순서형 범주를 사용할 수 있습니다.

3) 이진 평점: 사용자가 상품에 대해 좋음 또는 싫음만을 나타내는 평점입니다. 일반적으로 0 또는 1로 표현됩니다.

4) 단항 평점: 호감만을 표현하고 비호감 표현에 대한 기능이 없는 경우입니다. 주로 사용자가 좋아하는 항목을 추적하는 데 사용됩니다.

 

평점 표현 방식은 시스템에 따라 다양할 수 있으며, 5점, 7점, 10점이 가장 흔한 평점 체계입니다. 이러한 평가는 사용자의 관심 수준을 나타냅니다. 예를 들어, 5점 평점 시스템에서 각 평점은 사용자의 관심 수준을 의미합니다.

평점 표현 방식은 서비스에 따라 다를 수 있습니다. 아마존이나 넷플릭스와 같은 플랫폼은 각자 독특한 평점 시스템을 가지고 있습니다. 예를 들어, 넷플릭스의 5점 평점 체계에서 4개의 별은 매우 좋음을 나타내고, 3개의 별은 좋음을 표현합니다. 이로 인해 넷플릭스에서는 좋음을 표현하는 평점과 나쁨을 표현하는 평점의 불균형이 있을 수 있습니다.

 

3. 콘텐츠 기반 추천 시스템

콘텐츠 기반 추천 시스템에서는 아이템의 설명 속성을 활용하여 추천을 제공합니다. 예를 들어, 사용자 A가 영화 "터미네이터"에 높은 평점을 주었고, 다른 사용자들의 평점을 알 수 없는 상황이라고 가정해봅시다. 이 경우 협업 필터링 방법론은 사용할 수 없습니다. 그러나 "터미네이터"의 설명에서는 "에이리언", "프레데터"와 같은 다른 공상과학 영화와 유사한 장르 키워드를 포함하고 있습니다. 이때, 콘텐츠 기반 방법론은 사용자 A에게 "에이리언"과 "프레데터"를 추천할 수 있습니다.

콘텐츠 기반 방법론은 평점 데이터가 부족한 새로운 아이템에 대한 추천에서 강점을 가지고 있습니다. 그러나 몇 가지 단점도 존재합니다. 대부분의 경우 콘텐츠 기반 방법론은 키워드나 내용을 기반으로 한 명백한 추천을 제공합니다. 즉, 사용자가 특정 키워드가 포함된 아이템을 한 번도 사용한 적이 없다면 해당 아이템을 절대 추천하지 않을 것입니다. 이로 인해 추천 아이템의 다양성이 감소할 수 있습니다. 또한, 새로운 사용자에게 효과적인 추천을 제공하는 데 어려움이 있습니다. 새로운 사용자는 평점 이력이 없기 때문에 정확한 추천이 어려울 수 있습니다.