2.2 Key Properties of Ratings Matrices
- 해당 Section에서 등급 매트릭스는 R로 표시되며, R은 사용자(m)과 n개 item(n)을 포함하는 m x n 매트릭스라고 가정합니다.
- 여기서 항목 j에 대한 사용자 u의 등급은 $r_{uj}$로 표시합니다.
- 일반적으로 등급 매트릭스에 있는 항목의 작은 하위 집합만 특정됩니다.
- 하위 집합으로 특정된 항목을 학습 데이터로, 특정되지 않은 항목을 테스트 데이터라고 합니다.
- 이런 분류는 분류, 회귀, 반지도 학습 알고리즘에서 유사성을 가집니다.
- 이러한 경우 지정되지 않은 모든 항목은 클래스 변수 또는 종속 변수로 알려진 특수 열에 속합니다.
- 따라서 추천 문제는 분류와 회귀의 문제를 일반화한 것으로 볼 수 있습니다.
방식에 따른 평가 등급 정의
Continuous ratings
- Jester Joke 추천 엔진으로 대표되는 방식으로 호불호 수준을 연속형 척도로 평가 등급을 부여합니다.
- 예를들어 -10에서 10사이의 값으로 평가 등급을 매긴다면 그 값은 9.8과 같은 실수가 될 수도 있습니다.
- 해당 방식은 정확한 값을 매길 수는 있지만 user로 하여금 실제 가치를 명확하게 부여해야하기 때문에 부담이 생길 수 있다는 단점이 있습니다.
Interval-based ratings
- 일반적으로 평가 등급을 매길 때 사용되는 방법으로 구간을 기준으로 평가 등급을 부여하는 경우입니다.
- 5점 또는 7점 척도로 등급을 매깁니다.
- 5점 척도의 경우 1에서 5사이의 숫자 정수 값으로 평가 등급을 부여합니다.
- 해당 방식에서 중요한 가정은 숫자 값이 평가 등급 사이의 거리를 명시적으로 정의하고 등급 값은 일반적으로 같은 거리라는 것입니다.
Ordinal ratings
- 범주형 값("강력히 동의하지 않음", "불합치", "중립", "동의함" 및 "강력히 동의함")으로 평가 등급을 부여하는 방법입니다.
- 2번 방법과 유사해 보이지만 가장 큰 차이점은 인접한 등급 간의 차이가 동일하지 않다고 가정 되는 것입니다.
- 그러나 만약 범주형 값에 정수 값을 부여하여 강제적으로 등급 간의 차이를 동일하게 만든다면 2번 방법과 거의 동일하다고 볼 수 있습니다.
Binary ratings
- 양수 또는 음수 반응에 해당하는 두가지 옵션만으로 평가 등급을 부여하는 방식입니다.
- 좋다, 싫다 등의 선택지만 제공되기 때문에 강제 선택이 부과되는 방식입니다.
- 만약 중립인 경우에는 등급을 전혀 지정하지 않는 경우도 있습니다.
Unary ratings
- 페이스북의 '좋아요' 버튼과 같이 긍정적인 반응만을 평가 등급으로 활용하는 방식입니다.
- 선택지를 누르지 않아도 고객의 행동에서 파생되는 경우도 많습니다.
- e-commerce에서 고객이 상품을 구매하는 행위가 이에 해당합니다.
명시적 평가 등급과 암묵적 평가 등급
명시적 평가 등급
- 피드백이 명확히 보이는 평가 등급입니다.
- 위에서 1번에서 4번이 이에 해당한다고 볼 수 있습니다.
- 명시적으로 평가가 진행 되기 때문에 학습 데이터로 활용하기에 좀 더 유용하다고 볼 수 있습니다.
- 하지만 평가 등급을 user가 직접적으로 부여해야 하기 때문에 많은 양의 데이터를 얻기가 어렵다고 볼 수 있습니다.
암묵적 평가 등급
- 페이스북의 '좋아요'와 같이 직접적으로 보이기도 하지만 대부분 user와 온라인 사이트 항목간의 상호 작용으로 얻게 되는 평가 등급입니다.
- 위에서 5번이 이에 해당한다고 볼 수 있습니다.
- user-온라인 사이트간의 상호작용으로 얻기 때문에 명시적 평가 등급보다 데이터를 얻기가 좀 더 수월합니다.
long-tail problem
- 모든 item들이 user들에 의해 평가 등급을 부여 받게 되면 추천 시스템을 구축하는데 매우 유용할 수 있습니다.
- 그러나 실제로 대다수의 item들은 거의 등급이 매겨지지 않습니다.
- 소위 말하는 인기 item에만 등급의 분포가 크게 치우쳐져 있게 되고 이처럼 편향된 등급 분포는 마치 긴 꼬리를 가진 그래프의 형태로 나타나게 됩니다.
- 위와 같은 long tail problem은 추천 프로세스에 중요한 영향을 미칩니다.
long tail problem이 추천 프로세스에 끼치는 영향
larger profit margin
- e-commerce분야에서 보았을 때, 빈도가 높은 아이템은 상대적으로 경쟁력이 있지만 이익은 거의 없는 item이라고 볼 수 있습니다.
- 반면 빈도가 낮은 item은 경쟁력은 떨어지지만 이익률은 더 큽니다.
- 따라서 낮은 빈도의 item을 추천하는 것이 좀 더 유리하다고 판단할 수 있습니다.
- 실제로 Amazon과 같은 많은 기업들이 long tail 안에 있는 아이템을 판매함으로써 수익을 올리는 것으로 나타났습니다.
the same set
- long tail 안에 있는 품목들은 일반적으로 등급 예측을 하는 것이 더 어렵습니다.
- 이로 인해 대부분의 추천 알고리즘은 long tail 안에 있는 item을 추천하지 못하고 인기 있는 item을 추천하는 경향이 있습니다.
- 이 현상은 추천 item의 다양성에 부정적인 영향을 미치게 되고, user는 종종 같은 item을 추천받음으로써 실효성이 떨어질 수 있습니다.
misleading results
- long tail 분포는 user의 평가가 적은 item들의 분포를 의미합니다.
- 이웃 기반의 협업 필터링 방식은 자주 등급이 매겨진 항목을 기반으로 정의되는 경우가 많기 때문에 long tail분포는 커다란 영향을 미칩니다.
- 평가 등급을 예측하는 상황에서 평가 빈도가 높은 item의 평가 등급으로 빈도가 낮은 item의 평가 등급을 예측한다면 오해의 소지가 있는 등급으로 예측할 수도 있습니다.
→ 추천 과정에서는 위의 3가지가 충분히 고려되어야 합니다.
'[Rec-Sys]' 카테고리의 다른 글
[ch02] 2.3 Predicting Ratings with Neighborhood-Based Methods(2) (0) | 2021.12.14 |
---|---|
[ch02] 2.3 Predicting Ratings with Neighborhood-Based Methods(1) (0) | 2021.12.08 |
[Ch02] 2.1 Introduction (0) | 2021.12.01 |
[Ch01] 1.5 Advanced Topics and Applications (0) | 2021.11.10 |
[Ch01] 1.4 Domain-Specific Challenges in Recommender Systems (0) | 2021.11.09 |