인공지능(AI) 강화학습, 고객 여정 최적화의 필수 요소로 자리잡다!


기업의 마케팅 전략도 인공지능(AI)사물인터넷(IoT)과 같은 혁신적인 기술이 등장하며 함께 발전하고 있습니다. 고객 중심의 IT 환경에서 많은 기업은 높은 고객 충성도를 달성하고자 고객 여정(customer journey) 최적화에 많은 노력을 기울이고 있는데요. 인공지능 역시 고객 여정을 최적화하기 위한 기술로 많은 비즈니스에 도입되고 있습니다. 


인공지능 강화학습(Reinforcement learning) 모델을 적용한 대표적인 예로는 미국 게임 개발사 아타리(Atari)가 선보인 ‘브레이크아웃(Breakout)’이라는 비디오 게임으로 사람보다 더 나은 플레이를 선보이기도 했는데요. 이 게임은 플레이 화면 하단에 있는 막대로 튕겨오는 공을 받아 쳐 상단에 있는 벽돌을 깨는 일명 ‘벽돌 깨기’ 게임입니다. 다음 스테이지로 올라갈 때마다 난이도가 높아지고 많은 벽돌을 깰수록 높은 점수를 받게 됩니다. 인공지능 컴퓨터는 강화학습을 통해 이전의 게임 경험과 기록, 현재의 게임 상황을 기반으로 막대를 가장 잘 사용할 수 있는 방법을 스스로 학습합니다. 이와 같은 게임 방식은 고객 여정 프로세스에도 적용할 수 있습니다.


▲강화학습 모델을 적용한 아타리(Atari)의 비디오 게임 '브레이크아웃(Breakout)’


고객 여정은 고객과 잠재적인 마케팅 메시지(활동)으로 구성됩니다. 고객을 위한 최선의 방법을 찾아 가장 높은 점수를 얻는 마케팅 담당자가 이기는 게임이라고 할 수 있습니다. 이 점수에 해당하는 마케팅의 목표는 고객 총 전환(conversion)이나 기업의 가치 측정 항목을 기준으로 측정됩니다. 고객 상태(Customer state)는 아래와 같이 마케팅 활동에 영향을 미치는 고객의 특성을 나타냅니다. 


  • 인구통계학적 정보(성별, 소득, 나이, 거주 지역 등) 

  • 방문자 행동(현재의 활동, 방문 페이지, 마지막 방문 시간 등의 현재 세션 정보 등) 

  • 기록(이전에 접했던 광고, 메시지, 프로모션에 대한 반응 등) 


마케팅 활동은 고객과의 현재 인터랙션 접점에서 수행할 수 있는 다양한 마케팅 메시지를 뜻합니다. 상태 전환(State transitions)은 고객 여정의 각 단계를 나타내고, 상태 활동 값(State Action Value)은 고객을 대상으로 마케팅 활동을 할 때 예상되는 증분 값(Incremental Value)을 의미합니다. 


이와 같은 값이 계산되면 의사결정 과정은 매우 간단합니다. 가장 큰 증분 값에 따라 마케팅 활동을 취하면 됩니다. 이 내용은 마케팅에서 예측 분석을 통해 고객의 소비 습관을 파악하고, 고객이 여러 대안 중 최적의 안을 결정할 수 있도록 지원하는 ‘넥스트 베스트 오퍼(NBO; Next-Best-Offer) 시스템’과 익숙한 개념일 텐데요. 하지만 강화학습의 가장 큰 차이점은 시스템이 가치를 학습한다는 총체적인 접근법에 있습니다.


기존 마케팅에서 쓰이는 ‘넥스트 베스트 액션(Next-Best-Action) 접근법’에서는 각 오퍼마다 하나의 예측 모델을 구축합니다. 이 예측 모델은 서로 연관성이 없기 때문에 인터랙션 효과를 기대하기가 어렵습니다. 지난 주 진행한 10% 할인 프로모션에 고객이 어제 장바구니에 추가한 상품을 합쳐 무료 배송 쿠폰 혜택으로 전환하는 가능성과 같은 인터랙션 효과를 얻기 힘든 것처럼 말이죠. 물론 다양한 모델과 마케팅 기여도(attribution)를 통해 인터랙션 효과를 만들어낼 수는 있습니다. 하지만 이렇게 되면 모델 조합의 개수가 너무 많아져 효율성이 떨어지게 됩니다. 또한, 조합이 많을수록 각각의 사례를 모델링 하는데 쓰이는 데이터가 줄어들어 적합한 모델을 찾는 것도 어려워집니다.



반대로 강화학습은 총체적인 접근법을 사용하는데요. 강화학습은 고객의 과거 인터랙션 내역을 자동으로 기록하기 때문에 추가적인 마케팅 기여도를 위해 노력할 필요가 없습니다. 그 중에서도 가장 큰 차이라 할 수 있는 점은 학습 과정에서의 동적 특성(Dynamic Nature)인데요. 동적 특성은 더 자주 접하는 고객 상태를 신속하게 감별하고 집중적인 마케팅 활동을 펼쳐 데이터가 다수의 활동에 소비되지 않고 보다 효율적으로 사용된다는 것을 의미합니다. 또한 이러한 과정에서 몇몇 임의 데이터는 시스템에 남아 방치되지 되지 않도록 새로운 조합을 만들어내는 시도를 하기도 합니다. 


마케팅에서 게임 점수와 같은 목표는 측정 기준인 총 전환이나 고객 가치 또는 매출 수익을 의미합니다. 마케팅이라는 게임의 목적은 기간에 상관없이 이러한 전환이나 고객 가치, 매출 수익을 극대화하는 것이겠죠.



위는 고객 여정을 단순화해 보여준 다이어그램입니다. 색칠된 부분은 각각 다른 고객 상태를 나타냅니다. 이 상태는 기업이 고객에 대해 알고 있는 정보를 보여주는데요. 고객 정보 중 일부는 인구통계학처럼 불변적인 정보를 나타내기도 하고, 다른 일부는 측정된 고객 행동과 같이 가변적인 정보를 나타내기도 합니다. 각 고객 상태에는 마케팅 담당자가 수행할 수 있는 하나 이상의 후보 활동(Candidate Action)이 있어 이 활동을 통해 고객 상태로 이어집니다. 이 활동들에는 소위 상태 활동 값(State-action Value)이라는 전환과 연관된 값이 있어 이 활동 값을 통해 최선의 결정을 내리고 있는 것인지 확인할 수 있습니다.  


이러한 상태 전환(state transition) 중 일부는 마케팅 활동으로 인한 결과로 볼 수 있는데요. 그 외에는 자연적으로 발생한 결과이거나 외부 영향으로 인한 결과일 수 있습니다. 고객 경로에서 강조 표시된 고객 상태를 통해 고객이 세 가지 마케팅 활동에 적격인 대상임을 알 수 있고 어떤 마케팅 활동을 진행할 지 결정할 수 있게 됩니다.



무작위로 마케팅 활동을 시도해보는 것 역시 강화학습을 시작할 수 있는 하나의 방법입니다. 예를 들어, 준비된 마케팅 메시지 중 하나를 골라 고객에게 전달하는 거죠. 이러한 활동이 바로 고객 전환과 같은 보상으로 이어졌을 경우, 쉽게 상태 활동 값을 계산할 수 있습니다. 물론 단기적 고객 여정 최적화에 집중할 준비가 되어있고 이러한 고객 여정의 초기 단계를 건너뛰기 원하는 경우에 말이죠. 하지만 고객 여정 최적화를 위한 좋은 방안을 찾기 위해서는 장기적인 마케팅 효과와 경험이 필요하다는 것 잊지 마세요.




저자

말콤 라이트바디(Malcolm Lightbody) l SAS 고객 인텔리전스(CI) 프로덕트 매니지먼트 책임자(Principal Product Manager, Customer Intelligence at SAS)


편집

김은정 수석 l SAS코리아 고급분석 전문가