데이터 시각화를 이용한 ‘노벨상 수상자’ 관련 흥미로운 인사이트!

노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석



노벨상의 유래

매년 10월 초, 전 세계의 이목이 스웨덴과 노르웨이로 쏠립니다. 바로 세계에서 가장 권위 있는 시상식 '노벨상(The Nobel Prize)'이 열리기 때문인데요. 노벨상은 다이너마이트를 발명해 거대 재벌이 된 스웨덴 화학자 알프레드 노벨(Alfred Nobel)의 유언에 따라 그가 남긴 재산으로 노벨 재단을 설립하며 시작됐습니다. 최초의 노벨상은 1901년 물리학, 화학, 생리학 및 의학, 세계 평화, 문학의 5개 부문이었으나, 1968년 스웨덴중앙은행인 스베리어릭스 은행(Sveriges Riksbank)이 알프레드 노벨을 기리기 위해 경제학 부문을 추가 제정했습니다. 경제학상은 다른 노벨상과 동일한 원칙에 따라 운영되며 상금 액수도 같지만 정식 명칭은 ‘노벨상’이 포함되지 않은 '알프레드 노벨을 기념한 스웨덴중앙은행 경제과학상(The Sveriges Riksbank Prize in Economic Sciences in Memory of Alfred Nobel)'입니다.


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석

▲노벨 재단을 설립한 스웨덴 화학자 알프레드 노벨(Alfred Nobel) 


자, 지금까지 노벨상의 유래에 대해 소개해드렸는데요. 지금부터는 영예로운 노벨상 수상자 개개인에 대해 자세히 살펴보고자 합니다. 현재까지 900명 이상의 노벨상 수상자가 배출됐는데요. 과연 이들의 업적, 출신지, 공통 특성은 무엇일까요? 아래 표는 빅데이터 시각화 솔루션 ‘SAS 비주얼 애널리틱스(SAS Visual Analytics)'를 이용한 노벨상 수상자 예비 분석 결과입니다. 이 분석은 List of Nobel laureates, List of Nobel laureates by university affiliationNobel Laureates datasets at Kaggle에서 발췌한 데이터를 기반으로 하며, 일부 비일관성을 수정하기 위해 데이터를 정리했습니다. 



노벨상 수상자는 총 몇 명일까요?

2017년 12명이 노벨상을 받아 1901년 첫 시상 이래 총 923명의 수상자가 탄생했습니다. 공동 수상은 상의 개수를 기준으로 세서 총 수상자(923)는 개인 수상자(347)와 공동 수상자(576)의 합보다 적습니다. 또 수상 기관은 27곳으로 노벨상의 대부분은 개인(896)에게 돌아갔습니다.


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석

아래 차트는 공동 수상자들이 늘어남에 따라 매해 전체 수상자 수도 증가하는 전반적 추세를 보여줍니다. 그래프 위의 보라색 동그라미는 해당 연도에 공동 수상자가 있음을 나타냅니다. 연 평균 수상자 수는 약 8명이지만 1916년에는 노벨 문학상 수상자 1명뿐이며, 2001년에는 15명이 공동 수상하면서 최다 수상자를 기록했네요. 또 차트를 통해 1차 세계 대전 중에는 수상자가 거의 없었고, 2차 세계 대전 중에는 한 명도 없었음을 알 수 있습니다. 


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석


또 다른 재미있는 사실은 바로 노벨상을 두 차례 이상 수여한 수상자들이 있다는 것인데요. 널리 알려진 대로 여성 과학자 마리 퀴리(Marie Curie) 부인은 여성 최초이자, 물리와 화학이라는 서로 다른 부문에서 노벨상을 두 차례 수여했습니다. 이처럼 노벨상을 두 차례 이상 받은 수상자들의 데이터 세트를 검색하면, 마리 퀴리(Marie Curie), 라이너스 폴링(Linus Pauling), 존 바딘(John Bardeen), 프레더릭 생어(Frederick Sanger)를 확인할 수 있습니다.


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석



노벨상 수상자들은 장수한다?

앤드류 오스월드(Andrew Oswald) 워릭 대학교(University of Warwick) 교수의 연구에 따르면 답은 ‘그렇다’입니다. 그의 연구 결과, 노벨상 수상자들은 후보자들보다 1.5년 가량 더 오래 산 것으로 나타났는데요. 물론 노벨상 수상에 따른 금전적인 이득도 영향을 줄 수 있겠지만 그보다 신체와 정신 사이의 깊은 연결 고리, 즉 ‘행복함’ 덕분은 아닐까 추측해봅니다.


자, 조금 더 과학적으로 접근해볼까요? 노벨상 후보자들에 대한 데이터는 없으므로 수상자들의 수명과 이들이 노벨상을 수상할 당시의 연령을 기반으로 테스트를 해보겠습니다. 노벨상 수상자들의 평균 수명은 약 80세로 세계 평균 기대 수명인 71.4세(세계보건기구(WHO), 2015년)보다 훨씬 높은데요. 자세히 살펴보면, 1964년 노벨 평화상을 수상한 마틴 루터 킹(Martin Luther King) 목사는 39세에 암살당하며 가장 짧은 수명을 기록했습니다. 반면 130세까지 최장수한 수상자는 1986년 노벨 의학상을 수상한 리타 레비몬탈치니(Rita Levi-Montalcini)와 1991년 노벨 경제학상을 수상한 로날드 H. 코스(Ronald H. Coase)입니다. 하단 그래프를 통해 노벨상 수상자들의 수명 분포는 오른쪽으로 치우쳐 있으며, 평균적으로 장수한다는 사실을 알 수 있습니다.


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석

노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석

이외 흥미로운 인사이트는 다음과 같습니다.

  • 노벨 경제학상과 의학상 수상자들의 수명이 가장 긴 것으로 나타났습니다. 특히 경제학상 수상자들의 평균 수명은 의학상 수상자들보다 5년이나 더 긴 약 86세입니다.

  • 경제학상 수상자들은 다른 부문보다 높은 평균 67세에 노벨상을 받았습니다. 최고령자는 2007년 90세의 나이로 노벨상을 수상한 레오니트 후르비치(Leonid Hurwicz)입니다. 반면 물리학상 수상자들은 경제 부문보다 10세 이상 낮은 평균 56세에 노벨상을 받았는데요. 경제학 부문에서 뛰어난 업적을 달성하려면 더 긴 시간이 필요한 걸까요?

  • 평균 수상 연령과 수명 사이 기간이 가장 긴 부문은 물리학으로, 물리학상 수상자들은 수상 후 평균 20년간 더 오래 살았습니다.

  • 평화상 수상자들의 수상 연령 차이는 약 70년으로 가장 큰데요. 최연소 노벨 평화상 수상자 말랄라 유사프자이(Malala Yousafzai)가 2014년 17세의 나이로 수상했기 때문입니다.


SAS 비주얼 애널리틱스로 만든 아래 차트는 각 부문별 모든 수상자들의 수상 연령을 보여줍니다. 기준선은 전체 평균 수상 연령인 59세입니다. 1940년-1943년에는 2차 세계 대전 때문에 노벨상 수상이 거의 없었네요.


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석



노벨상 수상자들은 어느 대학을 졸업했을까요?

다음으로 노벨상 수상자들의 학력을 살펴보겠습니다. 아래 왼쪽 차트를 보면 학사나 석사보다 박사 학위를 보유한 수상자들이 훨씬 더 많다는 것을 알 수 있는데요. 반면 오른쪽 차트에서 볼 수 있듯이 문학과 평화 부문 수상자들의 학력 차이가 크지 않다는 사실이 흥미롭네요. 이 데이터 분석 결과로부터 물리학, 화학, 의학, 경제학 4개 부문(이하 과학 부문) 노벨상 수상자들이 문학과 평화 부문 수상자들보다 박사 학위 보유율이 더 높다는 인사이트를 도출할 수 있습니다. 


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석


이번에는 과학 부문 수상자들의 출신 대학을 보다 자세히 살펴볼까요? 우선 수상자들의 최종 학위를 기준으로 수상자를 가장 많이 배출한 상위 대학 10곳을 꼽았습니다. 예를 들어, 어떤 수상자가 하버드 대학교에서 석사를, 케임브리지 대학교에서 박사 학위를 받았으면 케임브리지 대학교를 추가했습니다. 그리고 각 부문별 분포와 대학이 위치한 국가 데이터를 시각화해 아래와 같은 차트를 그렸습니다.


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석


가장 왼쪽의 바 차트는 과학 부문 수상자들의 학위(박사, 석사, 학사) 비율을, 하단의 바 차트는 상위 대학 10곳을 순위대로 보여줍니다. 상단 중간의 여러 개의 축을 병렬로 배열해 비교하는 평행 좌표 그림(Parallel Coordinates Plot)을 보면, 케임브리지 대학교(붉은 색)의 물리학 전공과 하버드 대학교(황토색)의 의학 전공이 가장 많은 수상자를 배출했음을 알 수 있습니다. 또 차트의 오른쪽 부분은 상위 대학 10곳이 미국, 영국, 프랑스, 독일에 위치한다는 것을 보여주는데요. 


이중 상위 8개 국가별 대학과 수상 부문을 시각화해 아래와 같은 두 번째 차트를 만들었습니다. 한가지 흥미로운 사실은 미국에서는 2차 세계 대전 이후 수상자들을 가장 많이 배출한 반면, 독일에서는 2차 세계 대전 이전에 수상자들을 많이 배출했네요.


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석



노벨상 수상자들의 업적은 무엇일까요? 

노벨상 공식 사이트 'nobelprize.org'에 따르면, 알프레드 노벨(1833-1896)은 자신의 전 재산을 1년간 인류에 가장 큰 혜택을 안긴 이들에게 상을 수여하는 데 사용해달라고 유서를 남겼습니다. 구체적으로 현금화할 수 있는 모든 자산으로 기금을 조성하고, 기금에서 발생하는 이자를 물리학, 화학, 생리학 또는 의학, 문학, 세계 평화의 5개 부문에서 가장 두드러진 기여를 한 수상자에게 동일하게 배분하라는 유서를 남겼는데요. 


물론 데이터 세트 상에서 노벨상 수상자들이 실제 알프레드 노벨의 유언을 충족했다는 근거를 찾기는 쉽지 않겠지만 데이터 시각화를 통해 살펴보겠습니다. SAS 비주얼 애널리틱스의 텍스트 토픽 분석 기능을 이용해 nobelprize.org에서 공개한 노벨상 수상 이유인 ‘모티베이션(Motivation)’ 데이터를 분석하면 다양한 인사이트를 도출할 수 있습니다. 분석 결과, 가장 많이 언급된 단어는 ‘발견(discovery)’이었으며, 그 다음으로는 ‘일(work)’, ‘개발(development)’, ‘공헌(contribution)’, ‘이론(theory)’ 등이 자주 등장했습니다. 또 상위 10개 토픽은 ‘발견(discovery)’, ‘인간적인(human)’, ‘구조(structure)’, ‘경제의(economic)’, ‘기술(technique)’ 등으로 모두 알프레드 노벨의 유언을 반영하는 것을 확인할 수 있습니다. 추가로 감정 분석(sentimental analysis) 결과, 긍정적이거나 부정적인 말도 있었으나, 대개 중립적(객관적)인 것으로 나타났습니다. 


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석


노벨상, SAS비주얼애널리틱스, 데이터시각화, 빅데이터분석, 감정분석, 텍스트분석


지금까지 노벨상 수상자 데이터를 시각화하고 다양한 분석을 시도해봤는데요. 어떠셨나요? 복잡한 정보를 이해하기 쉽게 표현해주는 데이터 시각화는 빅데이터 시대의 핵심 기술입니다. 누구나 데이터 과학자처럼 비즈니스를 분석하고 빅데이터를 시각화할 수 있는 'SAS 비주얼 애널리틱스' 효과를 무료로 체험해보세요! 관련 있는 모든 데이터를 시각적으로 탐색하고 주요 관계, 이상 값, 클러스터, 트렌드 등 필수 정보를 직관적으로 정리함으로써 원인과 결과를 손쉽게 파악하고 비즈니스에 적용할 수 있습니다.





간단한 신청만으로 ‘SAS 비주얼 애널리틱스’를 14일간 무료로 사용하세요! 

무료 신청하기 클릭











저자

신디 왕(Cindy Wang)ㅣSAS 베이징 R&D 개발 테스트 매니저(Development Testing Manager at SAS Beijing R&D)


편집

고준형 이사ㅣSAS Korea Pre-sales, 데이터 시각화 담당