최적 가격 추천을 위한 Reinforce Learning Model

Untitled

내부 지표를 활용하여 11번가 상품이 주문이 많이 일어날 수 있도록 가격을 최적화 하기 위하여 가격 선택 모델을 개발함
이 중, 꾸준하게 사용자의 action이 있는 상품을 선별하여 최적화된 가격 선택을 하도록 강화학습 모델 DQN(Deep-Q Learning) 개발
11번가 상품(agent)가 사용자의 액션(Environment)와 상호작용하는 과정을 통해 최적의 가격을 제공

#	구분	내용	비고
1	데이터 수집 및 Feature 선택	모델에 사용할 feature 선택 및 데이터 수집	예시 : 주문수, 클릭수, 거래액 등
2	환경 및 보상 정의	선택한 Feature(=Status, 상태)를 바탕으로 내부 환경 및 보상 정의	예시 : 거래액이 높아지면 긍정적인 보상을 준다. 가격을 높인다.
3	모델이 제공한 가격 선택	모델이 선택한 가격을 확인 후 제공	DQN 모델 사용
4	일정 시간 지난 후 상태 정보 확인	일정 시간이 지난 후 다시 내부 지표를 확인(status)하고 다시 가격을 제공받음. 이후 3, 4를 반복

Python, Pytorch, GYM, SQL, Hadoop, Pyspark, Jenkins, Git