데이터 분석 프로젝트를 성공적으로 시작하기 위한 체크 리스트 10가지

데이터과학, 데이터과학자, 데이터시각화, 데이터관리, 고급분석, 빅데이터, 데이터분석, 데이터사이언티스트



필자는 데이터 전문가와 엔터프라이즈 시스템 컨설턴트로서 오랜 경력을 쌓아왔으며, 저자와 대학 교수로서 교육 활동도 진행하고 있습니다. 그 동안 200여 개의 개인, 50개 이상의 그룹을 위한 데이터 분석 프로젝트를 감독하면서 수많은 분석 프랙티스를 연구해왔는데요. 


중요한 한 가지는 분석 프로젝트를 성공적으로 시작하기 위한 단 하나의 청사진은 존재하지 않는다는 것입니다. 하지만 다양한 성공 또는 실패 사례들을 기반으로 개인이나 기업이 데이터 분석 프로젝트에 착수할 때 유용하게 활용할 수 있는 핵심 체크 리스트를 도출할 수 있었는데요. 지금부터 분석 프로젝트를 성공적으로 시작하기 위해 고민해봐야 할 10가지 질문을 소개합니다.



Q1. 데이터 분석 프로젝트를 처음으로 시도하는 건가요?

기업 문화는 데이터 분석 프로젝트에 큰 영향을 미칩니다. 좋은 예시로 넷플릭스, 구글, 아마존은 데이터 분석 프로젝트를 성공적으로 수행한 것은 물론 더 나아가 분석을 하나의 기업 문화로 구축하고 데이터 중심 기업로 성장했는데요. 결과적으로 이들 기업은 입문하는 기업보다 우위에 있지만 다행히 첫 시도에 실패란 없습니다. 기대치를 낮추고 시작해보세요!



Q2. 해결하고자 하는 비즈니스 문제가 무엇이라고 ‘생각하시나요’?

당연한 질문 같지만 많은 이들이 이 질문에 대해 충분히 고민하지 않은 채 분석 프로젝트를 시작하곤 합니다. ‘생각하시나요?’라고 질문한 데에는 이유가 있는데요. 바로 문제의 근본적인 원인이 처음 생각과 달라지는 경우가 많기 때문입니다. 


어떤 경우에서든 모든 문제를 한 번에 해결할 필요는 없습니다. 이는 불가능한 일일뿐더러 실제 권장되는 접근법도 아닙니다. 기업은 애자일(Agile)과 같은 프로젝트 방법론을 통해 반복적인 접근법을 채택하고, 소규모 일괄 처리(batch)를 통해 다양한 문제를 해결할 수 있습니다.



Q3. 사용할 수 있는 데이터의 유형과 소스는 무엇인가요?

대부분의 기업은 방대한 양의 엔터프라이즈 데이터를 보관합니다. 따라서 내부 데이터베이스와 데이터 소스를 통해 많은 것을 처리할 수 있는데요. 하지만 여기서 끝이라고 생각한다면 오산입니다. 


정부에서 공개한 오픈 데이터 세트와 같은 외부 데이터 소스가 빠르게 증가하고 있기 때문인데요. 또한 스크래핑(scraping) 기술과 같이 웹에서 데이터를 검색해 사용 가능한 포맷으로 가져올 수 있는 쉬운 방법들이 있습니다. 그렇지만 이러한 방법은 학문적 환경에서는 유용하나 비즈니스 환경에서는 데이터에 능숙하지 못하다는 신호가 될 수 있습니다. 언제나 가능한 한 원본 데이터 소스를 활용하는 것이 가장 좋습니다.


주의사항: 기업이 보관하고 있는 모든 데이터에 쉽게 접근할 수 있는 것은 아닙니다. 내부 정치 등 다양한 이유로 분석 기회가 제한될 수도 있습니다.




Q4. 사용이 허가된 데이터의 유형과 소스는 무엇인가요?

개인 정보 보호와 보안에 대한 수많은 논쟁이 이어지고 있는 가운데, 반드시 고민해봐야 할 질문입니다. 최근 몇 년간 일부 유통 업계 경영진들이 배운 것과 같이 기업은 법을 완벽하게 준수하면서도 구매 내역 등 개인 정보 보호와 관련해 소비자를 불쾌하게 만들 수 있습니다. 또 헬스케어 기업은 1996년 제정된 미국 의료정보보호법(HIPAA; The Health Insurance Portability and Accountability Act)을 실질적으로 위반하지 않고서도 개인 정보 보호 문제를 일으킬 수 있죠.


한편 최근 시행된 유럽 일반개인정보보호법(GDPR; General Data Protection Regulation) 하에 기업은 이전까지 사용할 수 있었던 개인 데이터를 더 이상 활용하지 못할 수 있습니다. 적어도 이전과 같은 방식으로는 말이죠.



Q5. 데이터 품질은 어떠한가요?

일반적인 실수 중 하나는 바로 기업의 데이터가 완벽하고, 정확하며, 고유하다고(비중복) 짐작하는 것인데요. 필자의 컨설팅 경력 동안 고객으로부터 ‘완벽한’ 데이터 세트를 전달받은 횟수는 한 손으로 셀 수 있을 정도로 적습니다. 물론 데이터를 정리하는 작업도 중요하지만, 시작 단계에서 완전히 새 것 같은 데이터가 필요한 것은 아닙니다. 볼테르(Voltaire)가 말했듯 완벽함만 추구하면 좋은 결과를 낼 수 없습니다(Perfect is the enemy of good).



Q6. 데이터를 추출, 정리, 분석, 표시하기 위해 이용할 수 있는 툴은 무엇인가요?

2018년에 분석은 1998년과 다르게 스프레드시트에 국한되지 않습니다. 물론 마이크로소프트 엑셀은 정형 데이터를 지원합니다. 단, 데이터 세트가 많이 크지 않다면요. 하지만 우리 모두가 선호하는 스프레드시트 프로그램의 사용은 다음과 같은 다양한 영역에서 제한된다는 사실에 주의해야 합니다. 

  • 반정형 및 비정형 데이터 처리 

  • 변화/버전 관리 추적 

  • 크기 제한 처리 

  • 거버넌스 보장 

  • 보안 구현 


이외에도 대규모의 복잡한 데이터 세트를 분석하기 위해 사용해볼 가치가 있는 다양한 툴들이 있는데요. 또 이전까지 경험해보지 못한 흥미로운 방식으로 데이터를 표시하도록 설계된 강력하고, 합리적이며, 사용자 친화적인 데이터 시각화 툴도 있습니다. 대표적으로 SAS 비주얼 애널리틱스(SAS Visual Analytics)SAS 비주얼 데이터 마이닝 앤드 머신러닝(SAS Visual Data Mining and Machine Learning), 그리고 다양한 오픈 소스 툴 은 더욱 강력하고 멋있는 데이터 시각화를 구현하는 애플리케이션과 프레임워크입니다.


주의사항(1): 소프트웨어 공급 업체들은 종종 서로의 기능을 모방하기도 합니다. 이때 모든 애플리케이션이 다른 애플리케이션의 기능을 구현할 수 있는 것은 아닙니다. 

주의사항(2): 오픈 소스 소프트웨어를 사용할 때에도 트레이닝과 교육에 어느 정도의 시간과 노력을 투자해야 한다는 사실을 잊지 마세요.




Q7. 직원들이 데이터 분석 프로젝트에 적합한 기술을 보유하고 있나요?

물론 데이터베이스 관리자는 SQL에 능숙하겠지만, 그렇다고 무조건 기가바이트(GB)에 달하는 비정형 데이터를 쉽게 분석할 수 있는 것은 아닙니다. 학생들이 한 학기에 걸쳐 새로운 프로그램을 배우듯이 회사원들도 마찬가지입니다. 실제 많은 기업들은 다음의 필요성을 느낍니다. 

  • 현 직원 대상 트레이닝 

  • 신규 채용 

  • 컨설턴트 계약

  • 캐글(Kaggle)과 같은 사이트에 프로젝트 게시 

  • 위의 모든 사항 


직원들이 짧은 시간 안에 새로운 애플리케이션과 프레임워크를 배울 수 있을 것이라고 생각하지 마세요. 불가능한 일입니다.



Q8. 분석 결과를 기반으로 실행할 수 있는 것은 무엇인가요?

필자는 1999년 한 기업의 채용 담당자로부터 지원자 데이터를 분석해달라는 요청을 받아 사례를 정리한 경험이 있습니다. 이 기업은 지속적으로 수백만 달러를 투자해가며 아이비리그 MBA 출신자들을 채용했지만, 2년 안에 퇴사하곤 했습니다. 그런데 데이터 분석 결과, 러트거즈(Rutgers) 대학의 MBA 과정을 밟은 직원들은 더 오랜 기간 재직하고 더 나은 성과를 보였는데요. 그렇지만 기업은 분석 결과를 따르지 않고 계속해서 하버드, 코넬 등 아이비리그 대학을 고집했습니다. 데이터가 유용하게 활용되지 못한 사례입니다. 


생각할 거리: 개인, 그룹, 부서, 기업은 데이터 분석 프로젝트를 통해 도출한 새롭고 예리한 인사이트로 무엇을 실행할까요? 분석 결과는 실제 실행으로 옮겨질까요? 아니면 누군가의 받은 편지함에 남게 될까요?



Q9. 예상할 수 있는 거부의 유형은 무엇인가요?

사람들이 언제나 그리고 기꺼이 데이터 중심의 분석 결과를 수용할 것이라고 생각한다면 오산입니다.


좋은 예로 메이저 리그 베이스볼(MLB) 심판들은 관중보다 더 가까운 거리에서 공을 보지만, 생각보다 더 자주 오심을 내립니다. (참조: Umps get 1 in 3 close pitches wrong, HBO story shows.) 객관적인 데이터가 있음에도 성과가 개선되지 않는 이유는 무엇일까요? 이는 다른 많은 사람들에게도 해당되는데요. 사람의 본성은 종종 자신의 세계관과 반대되는 데이터와 분석을 거부하게 만듭니다. 넷플릭스와 같은 정액 구독 모델이 인기를 끌기 몇 년 전까지만 해도 블록버스터 영화 기업의 경영진들은 영화를 더 편리하게 볼 수 있는 방법이 존재한다고 믿고 싶어하지 않았습니다. 


주의사항: 위험을 각오하고 내적 거부의 힘을 이겨내세요.



Q10. 실행하지 않았을 때의 대가는 무엇일까요?

매우 고차원적인 질문이며, 이에 대한 해답은 무수한 요인에 달렸습니다. 예를 들어, 수년간 특허 보호를 받아온 제약 회사는 그 뒤를 바짝 쫓고 있는 경쟁사 그리고 비상한 아이디어를 가진 스타트업과는 다른 대답을 제시할 것입니다. 또 여기에는 다음과 같은 흥미로운 질문들이 수반됩니다. 


  • 데이터 분석 프로젝트가 이미 알고 있는 것들을 재차 확인시켜줄 뿐인가요? 

  • 숫자를 통해 결정적인 무언가를 알아낼 수 있나요? 

  • 오탐지(false positives) 또는 미탐지(false negatives)를 찾아낼 수 있는가요?




데이터 분석 프로젝트에 착수하기 전에 질문을 던져보세요.

위의 질문들이 절대적인 것은 아닙니다. 하지만 다양한 사례를 통해 이 질문들이 기업의 문제를 파악하고, 성공을 지원한다는 사실이 증명됐습니다. 데이터 분석 프로젝트를 기획하고 있으신가요? 10가지 핵심 체크 리스트를 통해 실패의 가능성을 최소화하고 성공의 기틀을 마련해보세요!




데이터 중심 기업으로의 전환: 무엇을, 왜, 어떻게 

(Becoming a Data-Driven Organization: The What, Why and How)


데이터 중심 기업으로 전환하기 위한 3가지 토대 데이터 관리, 분석, 시각화로

기업은 수익성, 성과, 시장 점유율, 운영 효율성 등을 개선할 수 있습니다.

지금 바로 무료 백서를 통해 극복해야 할 장애물과 베스트 프랙티스를 확인해보세요.


무료 백서 다운받기

 






저자

필 사이먼(Phil Simon) l 작가, 연사, 교수(Author, Speaker, and Professor)


편집

SAS코리아 마케팅