개요
자사 상품을 경쟁사의 상품과 비교하여 고객에게 최저가로 제공하고자 하고자 함
그러나 수집되는 데이터에서는 자사 상품과 경쟁사 상품이 기존 상품이 변경/삭제/오매칭 등의 이유로 동일상품인지 아닌지 구분할 수 있는 모델이 필요한 상황
따라서 자사 상품과 경쟁사 상품의 동일성 여부를 판단하기 위해 텍스트 유사도를 기반으로 동일 상품을 맵핑하는 모델을 개발
Text Similarity Model
구분
내용
텍스트 정보 인코딩
- 11번가 상품과 경쟁사 상품의 상품명을 확인하여 상품명 정보를 벡터화
벡터화는
(1) S-BERT
와
(2) TF-IDF
두 모델로 각각 벡터화 진행 | |
텍스트 유사도 계산
| - 벡터화한 정보를 기반으로 아래와 같이 유사도를 계산함
코사인 유사도 : (1) 임베딩한 S-BERT (2) 임베딩한 TF-IDF 정보를 기반으로 각각 계산
자카드 유사도 : Raw 데이터(기존 상품명)의 White Space를 기준으로 자카드 유사도 계산 | |
동일 상품 판별
| - 각 유사도의 평균값을 계산하여 유사도가 가장 높은 상품을 동일 상품으로 판단 |
모델 성능 평가
10,000개의 상품 데이터를 추출하여 샘플링 및 모델 평가를 진행
모델의 매칭 정확도는 약 95%
사용 기술