미국 금융소비자보호국, 텍스트 분석과 머신러닝으로 불공정 행위에 대응하다

텍스트분석, 감정분석, 불공정행위, 금융소비자보호국


금융소비자보호국, 불공정 행위로부터 소비자 보호

버락 오바마 미국 전 대통령은 2008년 글로벌 금융 위기 이후 소비자 보호를 강화하고, 금융 업계를 규제함으로써 사태 재발을 막기 위해 다양한 노력을 기울였습니다. 그 중 하나가 바로 2011년 월스트리트에 대한 연방 감독 기구로 출범한 미국 금융소비자보호국(CFPB; Consumer Financial Protection Bureau)인데요.


금융소비자보호국은 소비자를 불공정 행위, 사기, 권력 남용 등으로부터 보호하고 기업의 불법 행위에 대해 조치를 취합니다. 구체적으로 금융 상품과 서비스에 대한 수천 건의 소비자 불만사항을 각 기업에게 전달하고 있는데요. 실제 2011년 설립 이후 120만 건 이상의 민원을 처리했고, 보상받은 액수만 무려 11억9000만 달러에 이릅니다. 그렇다면 금융소비자보호국은 어떻게 불공정 행위로부터 소비자를 보호할까요? 사례를 통해 살펴보겠습니다.


미국 노스 캐롤라이나 주 웨이크 카운티에 거주하는 존 모건은 재산세 체납 통지서를 받고 깜짝 놀랐습니다. 모기지(주택담보대출) 기업의 에스크로 계정에서 자동으로 납부되도록 설정했기 때문인데요. 모기지 기업과 수없이 많은 통화를 해야 했고 이 과정에서 시간은 더 많이 지체됐습니다. 담당자가 바뀐 후 세금이 납부됐다는 얘기를 겨우 들을 수 있었지만, 두 번째 체납 통지서를 받은 후 같은 과정을 모두 반복해야 했습니다. 그녀는 결국 최후의 수단으로 금융소비자보호국에 불만을 제기했습니다. 그제서야 문제를 해결할 수 있었죠.



데이터 분석, 새로운 대안으로 떠오르다

이러한 소비자 불만사항은 해마다 증가하고 있으며, 관련 데이터 또한 급격하게 축적되고 있는데요. 금융소비자보호국은 접수된 불만을 모두 처리할 뿐만 아니라 보유하고 있는 데이터를 이용해 더 많은 소비자를 도울 수 있는 방안에 대해 고민

하기 시작했습니다. 예를 들어, 다양한 트렌드에 따라 데이터를 정량적으로 평가하거나, 문제를 관리하기 어려워지기 전에 소비자가 가장 관심 있어 하는 분야를 발견하고 거시적 관점에서 문제를 해결할 수는 없을까요?


SAS의 톰 사보(Tom Sabo)는 이 방법을 오랜 시간 연구해왔습니다. 그는 “텍스트를 수동으로 분석하기 위해 더 많은 인력을 투입하는 것은 해결책이 아니다. 매우 구체적인 표준이 채택되어 있지 않는 한, 어느 한 사람이 불만사항을 읽고 태그를 다는 방법은 또 다른 사람의 방법과 사뭇 다를 수 있다. 사람이 많아질수록 텍스트 데이터에 대한 질적인 해석은 크게 달라진다.”라고 설명하는데요.


또 인력의 피로도 문제가 된다고 지적합니다. 하루에 100건이 넘는 불만사항을 검토해야 할 경우, 첫 10건과 마지막 10건을 평가할 때의 집중도는 분명 달라질 것입니다. 그는 “만약 새롭게 발견된 트렌드에 따라 지난 1년간의 모든 데이터를 다시 조사해야 한다면, 수동으로는 분석할 수 없는 규모일 것이며 트렌드 패턴에 대한 간단한 검색 작업으로는 충분하지 않을 것”이라고 덧붙였는데요.


텍스트분석, 감정분석, 불공정행위, 금융소비자보호국



텍스트 분석과 머신러닝 적용

그는 이에 대한 해결책으로 SAS 기술을 적용해 소비자 불만사항을 평가할 것을 제안했습니다. SAS는 소비자 불만사항에 담긴 감정을 조사하기 위해 공개적으로 사용 가능한 금융소비자보호국의 데이터에 텍스트 분석을 적용하고, 머신러닝을 이용해 각기 다른 형식의 불만사항에서 이용 가능한 자연어를 모델링 했습니다.


텍스트 분석과 머신러닝은 매우 이점이 많습니다. 각 기록에는 이미 불만사항이 제기된 기업에 대한 조치를 나타내는 처분 코드(disposition code)가 태그로 지정됩니다. 그는 “이러한 처분 코드와 관련된 각기 다른 자유로운 형식의 불만사항에 머신러닝을 적용하면 금융소비자보호국이 다루는 주요 문제를 강조하는 분류 체계를 반자동으로 생성할 수 있다”라고 설명하는데요.


또 “분석가는 인터랙티브 리포트 기능을 통해 텍스트 분석으로 생성된 감정과 규칙으로 개선된 불만사항에 대한 기존 데이터를 탐색할 수 있다”라고 덧붙였습니다. 이를 통해 분석가는 각 범주별로 상대적인 감정 수준에 따라 탐색 경로를 세분화하고 우선 순위를 매길 수 있습니다. 이때 드릴다운(drilldown) 보고서는 분석가가 시간 경과에 따른 트렌드를 확인할 수 있도록 시계열 차트도 포함합니다.


그는 “이 정보를 통해 대응 조치에 대한 트렌드를 파악할 수 있다. 예를 들어, 문제의 기업이 금전적 보상을 제공한 불만과 단순한 설명만으로 해결한 불만의 본질적인 특징이 무엇인지 알 수 있다”라고 설명합니다.




금융소비자보호국, 분석을 통해 ‘시간과 돈’ 두 마리 토끼를 잡다

구체적인 예를 들자면, 2015년 3월부터 10월까지 접수된 불만사항 37,000건의 텍스트를 분석하고, ‘소비자에 대한 기업의 대응’이라는 카테고리를 지정할 수 있는데요. 그는 “금전적으로 보상받은 불만사항을 구분할 수 있는 특정한 문구와 용어를 파악하고 싶었다. 수동으로 검토한 후 규칙을 적어 넣는 방법과는 반대로 머신러닝은 매우 짧은 시간 안에 비즈니스 규칙을 입력하지 않고도 마술처럼 패턴을 식별한다.”라고 설명하는데요. 이때 각 불만사항을 처분 코드를 통해 인코딩할 수 있는 주제별 전문가 지식을 활용합니다.


그는 금전적 보상을 받은 불만사항에 텍스트 분석, 머신러닝 등 고급 분석을 적용하고 ‘선의의 추정(GFE; good faith estimate)’이라는 용어가 빈번하게 사용됐음을 밝혀냈습니다. GFE는 모기지 대출이 마감될 때 지불해야 할 대략적인 금액을 조회하는 문서인데요. 이로부터 분석가는 대출 기관이 GFE의 복잡성을 악용해 수수료를 숨기거나 왜곡했을 가능성을 짐작할 수 있습니다.


그는 “텍스트 분석은 오용되거나 남용될 가능성이 있는 대출 기관의 관행을 양적으로 나타낼 수 있으며, 금융소비자보호국과 같은 감독 기관이 조치를 취할 수 있도록 기회를 제공한다.”라고 말합니다. 실제 시간의 흐름에 따라 불만사항을 조사한 결과, 2015년 9월 GFE에 대한 불만사항의 증가세가 차츰 꺾이기 시작했습니다.


또 그는 “2015년 10월 의회는 소비자들에게 비용을 더 투명하게 공개하고, 금융 기관이 이를 오용하기 힘들도록 금융소비자보호국이 GFE를 개정하게 했다. 분석을 평가의 일부로 활용해 소비자 보호를 위한 궁극적인 결정을 더 빨리 도출할 수 있을지는 여전한 의문입니다. 그렇지만 이러한 정량적 분석은 의회와 금융소비자보호국이 GFE를 폐지하겠다는 결정을 뒷받침합니다.”라고 설명합니다.




텍스트 분석과 머신러닝의 무궁무진한 잠재성!

금융소비자보호국과 같은 감독 기관 외에도 텍스트 분석과 머신러닝을 활용할 수 있는 가능성은 훨씬 더 무궁무진합니다.


그는 “이 방법론을 제보 데이터, 설문 조사, 의료 사고 등에 적용할 수 있다. 예를 들어, 허리케인이 발생하면 수많은 클리닉들이 부족한 병원을 대신해 사람들의 경험을 기록하고 도움을 준다. 생존자들이 필요한 의료 지원을 받을 수 있도록 클리닉에서 필요한 물품의 종류와 양을 결정하는 등 데이터로 할 수 있는 일이 많다.”라고 말합니다.


“유사한 분석으로 전염병 발생을 조기 포착하고 전염병 학자들의 역량을 향상시킬 수 있다. 또 공중 보건 연구가는 약물 과다 복용의 위험성이 있는 처방약 사용자를 식별할 수 있다. 데이터 분석의 가능성에는 한계가 없다.”라고 그는 덧붙였습니다.


그가 소비자 불만사항을 분석하기 위해 활용한 ‘SAS 텍스트 마이너(SAS® Text Miner)’는 비정형 데이터로부터 심도 깊은 인사이트를 빠르게 확보합니다. 방대한 문서에 숨겨져 있는 새로운 아이디어와 개념들을 찾고, 단어와 문구 간 패턴과 연계성을 확인함으로써 의사결정을 개선할 수 있습니다. SAS 글로벌 포럼에서 발표된 금융소비자보호국 사례에 대한 보고서 원문을 무료로 다운로드 받으시고, 텍스트 분석을 적용하는 방법, 머신러닝을 이용해 소비자 금융 불만사항을 평가하는 방법등에 대한 보다 자세한 내용을 확인해보세요.





저자

Anne-Lindsay Beall(앤-린지 벨) l SAS 인사이트 에디터(SAS Insights Editor)