트위터 빅데이터를 이용한 캐나다 청소년 자살 예방 프로젝트

데이터포굿, 자살예방, 텍스트마이닝, 빅데이터, 트위터, 소셜미디어


데이터 분석으로 청소년 자살을 예방할 수 있을까요?

캐나다 통계청에 따르면, 2011년 25세 미만의 캐나다인 사망자 중 5분의 1은 자살로 생을 마감했습니다. 자살은 캐나다 청년층의 두 번째 사망 원인으로 매우 심각한 사회 문제인데요. 특히 캐나다정신건강협회(Canadian Mental Health Association)에 의하면 15-24세의 자살 사망률은 선진국 가운데 세 번째로 높은 24%에 달합니다.


이러한 청년층 자살을 사전에 파악하고 조치를 취하기 위한 다양한 노력이 이어지고 있는데요. 그 중 하나가 바로 캐나다 헬스 인포웨이(Canadian Health Infoway, 이하 인포웨이)의 ‘데이터 임팩트 챌린지(Data Impact Challenge)’입니다. 인포웨이는 캐나다 정부의 지원을 받아 캐나다 전역의 건강 개선을 위해 디지털 기술을 연구하는 비영리 조직인데요.


인포웨이는 청년층 자살에 대한 해결책을 찾기 위해 다양한 질문을 접수하고, 캐나다 보건 의료 데이터 세트를 이용해 이 질문에 대한 답을 찾을 그룹을 선발했습니다. 이들 그룹의 연구 결과는 데이터 및 학술 전문가로 구성된 심사 패널에 의해 평가되고, 9만5000달러가 넘는 상금의 일부를 얻을 수 있는 기회가 주어지는데요.


그레그 호네(Greg Horne) SAS 캐나다 정부 헬스케어 책임자는 “SAS가 헬스케어 분야에서 끊임없이 도전하고 있는 문제들 중 하나는 ‘분석으로 불가능한 것을 이루려 하기 때문에 결국 아무것도 하지 않게 된다’는 생각이다. 마치 분석으로 인한 마비와 같다”라고 말했습니다. 그는 도전과제에 대해 생각하고, 문제를 이해하고, 데이터와 분석으로 어떻게 문제를 해결할 수 있을지 고민할 것을 장려했는데요.


인포웨이도 동일 선상에서 구체적인 질문을 던졌습니다. 프레이저 래치포드(Fraser Ratchford) 캐나다 헬스 인포웨이 그룹 프로그램 이사는 “종이에서 디지털로 이동하면서 중요한 정보에 신속하게 접근, 분석하고 더 나은 정책 의사결정을 내릴 수 있게 됐다. 챌린지 프로그램은 기존 데이터를 이용해 중요한 건강 관련 정책 이슈와 질문에 빠르게 답할 수 있음을 증명했다”라고 설명했습니다.


인포웨이의 챌린지 프로그램에 참가한 SAS는 소셜 미디어 게시물을 활용해 자해나 자살을 고려하고 있는 15-25세 사이의 청년층을 파악하는 안건을 선택했는데요. 이 안건에 대한 인포웨이의 이론적 근거는 다음과 같습니다:


데이터포굿, 자살예방, 텍스트마이닝, 빅데이터, 트위터, 소셜미디어


  • 전통적인 설문 조사에 대한 응답률이 감소하면서 정부와 관련 파트너들 사이에 소셜 미디어와 같은 공개적으로 사용 가능한 새로운 데이터 소스를 활용할 필요성이 대두됐다. 청년, 특히 젊은 남성의 전통적 설문 조사에 대한 응답률은 캐나다 모든 연령대 중 가장 낮다.

  • 트위터 사용자의 약 74%는 15-25세 사이의 청년층으로, 이들은 소셜 미디어를 활발히 사용하고 있다. 페이스북이나 트위터와 같은 소셜 미디어를 데이터 소스로 사용함으로써 기존 설문 조사와 관리 데이터 소스를 보강할 수 있다. 또 기존 발생, 성행, 사례에 대한 데이터를 보다 잘 분석해 상황을 파악, 해석할 수 있다. 이러한 새로운 소스로부터 초기 징후를 파악하고, 공식적인 감시 활동에 대한 가이드라인으로 활용할 수 있는 잠재적 기회 또한 존재한다.


해당 프로젝트의 핵심 데이터 과학자 중 한 명인 조스 폴플리에(Jos Polfliet) 박사는 “분석은 맞춤형 쿠폰, 주택 담보 대출 평가, 간단한 온라인 검색까지 일상 생활의 많은 측면에 내포돼 있다. 캐나다 청년들의 정신 건강과 같은 중요한 문제에 시간과 노력을 투자하는 일은 정말 보람 있는 경험이다”라고 소감을 밝혔습니다.



어떻게 청년 자살을 예방할 수 있을까요?

헬스케어 분야의 경력을 가진 호네 책임자와 팀 트루셀(Tim Trussell) SAS 데이터 사이언스 전문가 그리고 프로그래밍을 담당한 데이터 과학자 마리 솔(Marie Soehl)과 조스 폴플리에 박사는 230만개의 트윗을 수집했습니다. 그리고 트윗 게시자의 나이를 예측하기 위해 오픈 소스 PAN 저자 프로파일링 데이터 세트(PAN author profiling dataset)를 기반으로 머신러닝 모델을 구축하고, 텍스트 마이닝 소프트웨어를 이용해 캐나다 13-17세 청소년의 트윗 110만개를 식별했습니다. 자연어 처리, 예측 모델링, 텍스트 마이닝데이터 시각화 등 다양한 고급 분석 기술이 활용됐는데요.


솔 박사는 “그 많은 양의 데이터를 소화해냈다는 사실이 이 프로젝트의 가장 멋진 부분이다. 데이터를 이해하는 작업은 어려웠다”라고 회상했습니다.


누가 트윗을 올렸는지 인사이트를 얻은 후 그것을 되짚어 이전의 행동을 살펴보면 모집단에 대해 더 잘 이해할 수 있습니다. 그러나 트위터 상에서는 나이를 밝히지 않기 때문에 팀은 13-17세 캐나다 청소년의 데이터를 추출할 방법을 찾아내야 했습니다. 솔 박사는 “사람들이 트윗을 통해 말하는 방식을 기반으로 텍스트 데이터를 분석해 해당 연령 그룹에 속하는지 파악하는 모델을 개발했다. 특정 유행어와 관련 주제를 고른 후 해당 연령의 트윗을 수집하기 위해 트윗을 마이닝했다”라고 설명했습니다.


솔 박사는 이러한 분석 방법이 솔루션으로 확정되면 트위터와 협력해 신속하게 진행할 수 있을 것으로 생각했으나 트위터에서 데이터를 가져오는 데에는 제한이 따랐습니다. 솔 박사는 “이제 가능성을 보여줬고, 앞으로 함께 할 수 있는 일들이 많다. 그 과정과 무엇이 중요한지 알아내면 모든 것은 빠르게 진행된다”라고 덧붙였습니다.


팀은 우울증이나 자살에 관해 이야기하고 있는 사람들의 비율과 그들이 무엇에 대해 이야기하는지 조사했습니다. 호네 책임자는 SAS의 연구가 캐나다의 헬스케어 전문가들에게 공개됨으로써 데이터의 공백을 채울 수 있었다고 말했습니다. 팀은 이 질문에 대한 최선의 답을 도출하기 위해 1만 달러의 상금을 획득했고, 정신 건강 자선 단체 Mind Your Mind와 Rise Asset Development에 전액을 기부했습니다.


데이터포굿, 자살예방, 텍스트마이닝, 빅데이터, 트위터, 소셜미디어



그 다음은 무엇일까요?

폴플리에 박사는 정보로 이룰 수 있는 일들의 일부분일 뿐 끝이 아니라고 말합니다. 정보를 이용하는 또 다른 방법은 패턴과 경향을 살피는 것인데요. 그는 “데이터를 통해 캐나다의 어떤 특정 지역, 특정 학교, 특정 연도에 관련 문제가 있는지 확인할 수 있다. 궁극적으로 보다 명확한 타깃이 설정된 자살 예방 캠페인을 구현하고, 의사결정자들에게 가장 많은 노력과 비용을 들여 치료해야 할 위험에 처한 사람들을 알려줄 수 있다”라고 덧붙였습니다.


호네 책임자는 “데이터가 가진 능력과 잠재력의 일부를 보여주기 시작했다. 위험에 처한 사람들을 발견하는 것뿐만 아니라 그들을 관리하고 후속 조치를 취하는 등 할 수 있는 일들이 훨씬 더 많다”라고 말했는데요.


그는 위험에 처한 청소년은 물론 자살을 고려하고 있는 응급 구조원이나 재향 군인 등을 찾는 데에도 도움이 될 해결책을 구상하고 있습니다. 그렇지만 개인 정보를 식별할 수 있는 다른 소셜 미디어 플랫폼으로 솔루션을 확장하기 위해서는 사생활 보호 문제를 반드시 고려해야 합니다. 호네 책임자는 “윤리적 측면은 여전히 해결해야 할 과제”라고 강조했습니다.


캐나다의 청년층 자살 예방 프로젝트는 데이터를 이용해 사회적 문제를 해결하는 SAS의 다양한 '데이터 포 굿(data for good)노력 중 하나입니다. SAS는 전 세계 다양한 조직과 함께 분석을 이용해 사회적 변화를 일으킬 수 있는 새로운 방법을 찾고 있는데요. SAS는 분석을 이용해 세계를 변화시킨다는 원칙 하에 설립됐습니다. 암 퇴치와 지카 바이러스 연구부터 코딩 수업을 통해 가나 여성의 삶을 변화시키는 등 SAS는 데이터 분석을 이용해 중대한 인도주의적 문제를 해결하는 데 전념하고 있습니다.


데이터포굿, 자살예방, 텍스트마이닝, 빅데이터, 트위터, 소셜미디어



트위터 빅데이터 분석으로 자살 위험성 식별

그레그 혼 SAS 캐나다 헬스케어 담당 책임자의 인터뷰를 통해 SAS가 캐나다 청년의 자살 위험성을 예측하기 위해 트위터 데이터를 어떻게 활용했는지 자세히 확인할 수 있습니다.




SAS 텍스트 분석

SAS 텍스트 마이너(SAS® Text Miner)는 비정형 데이터로부터 심도 깊은 인사이트를 빠르게 확보합니다. 방대한 문서에 숨겨져 있는 새로운 아이디어와 개념들을 찾고, 단어와 문구 간 패턴과 연계성을 확인함으로써 의사결정을 개선할 수 있습니다. SAS 웹사이트에서 자세한 내용을 확인해보세요.


데이터포굿, 자살예방, 텍스트마이닝, 빅데이터, 트위터, 소셜미디어




저자

수잔 스프래즈카르 벨디키(Suzanne Sprajcar Beldycki) l SAS 캐나다 커뮤니케이션 총괄 책임자(Head of Communications, SAS Canada)