데이터과학자
-
데이터 분석 프로젝트를 성공적으로 시작하기 위한 체크 리스트 10가지분석 이야기/비즈니스 분석 2018. 10. 17. 12:05
필자는 데이터 전문가와 엔터프라이즈 시스템 컨설턴트로서 오랜 경력을 쌓아왔으며, 저자와 대학 교수로서 교육 활동도 진행하고 있습니다. 그 동안 200여 개의 개인, 50개 이상의 그룹을 위한 데이터 분석 프로젝트를 감독하면서 수많은 분석 프랙티스를 연구해왔는데요. 중요한 한 가지는 분석 프로젝트를 성공적으로 시작하기 위한 단 하나의 청사진은 존재하지 않는다는 것입니다. 하지만 다양한 성공 또는 실패 사례들을 기반으로 개인이나 기업이 데이터 분석 프로젝트에 착수할 때 유용하게 활용할 수 있는 핵심 체크 리스트를 도출할 수 있었는데요. 지금부터 분석 프로젝트를 성공적으로 시작하기 위해 고민해봐야 할 10가지 질문을 소개합니다. Q1. 데이터 분석 프로젝트를 처음으로 시도하는 건가요? 기업 문화는 데이터 분석..
-
데이터 마이닝과 머신러닝을 활용한 ‘시각적 분석’의 핵심 매력!SAS 이야기/SAS 관련 뉴스 2018. 9. 17. 14:32
최근 독일에서 개최된 SAS 포럼에서는 데이터 과학 및 분석과 관련된 다양한 핸즈온(hands-on) 세션과 워크숍이 진행됐습니다. 이전 포럼에서는 볼 수 없었던 몇 가지 분석 동향의 큰 변화가 있었는데요. 주요 시사점을 소개합니다. 분석의 대중화 올해 워크숍의 티켓은 일찍부터 매진이었습니다. 그 자체만으로도 기분 좋은 소식이지만, 사실 더 중요한 사실을 암시하는데요. 이는 참석자 모두가 데이터 사이언티스트가 아니었다는 것과도 연결됩니다. 이전 포럼과는 달리 여러 비즈니스 사용자들이 참석했는데요. 분석이 전문가들을 위한 기술에서 기업 전체의 모든 사용자들을 위한 솔루션으로 자리잡았음을 시사합니다. 또 분석을 활용하지만 그것이 비즈니스에서의 주된 역할은 아닌 ‘시민 데이터 과학자(Citizen Data S..
-
시민 데이터 과학자, 셀프서비스 분석으로 스펙트럼을 넓히다!SAS 이야기/SAS 관련 뉴스 2018. 4. 17. 17:32
올 초 미국항공우주국 나사(NASA)는 전 세계 시민 과학자(citizen scientist) 1만여명이 새로운 지구형 행성계 ‘K2-138’을 발견했다고 발표하며 천문학계를 떠들썩하게 했습니다. 대표적인 시민 과학자 플랫폼 ‘주니버스(Zooniverse)’에서 집단 지성을 모아 이뤄낸 첫 번째 쾌거입니다! 미국 캘리포니아 대학교 산타 크루즈(UCSC) 연구팀은 시민 과학자도 쉽게 데이터를 분석할 수 있는 특수 프로그램을 제작했습니다. 이를 기반으로 시민 과학자들은 나사의 케플러(Kepler) 우주 망원경 데이터를 직접 분석하고 분류함으로써 기존 외계행성의 신호와 다른 패턴을 찾아내고 새로운 행성계를 발견했습니다. 이 발견은 시민 과학자의 놀라운 가능성을 입증합니다. 한국천문연구원 역시 우주 연구에 관심..
-
머신러닝 해석력 시리즈 2탄: 데이터 세트를 이해하고 해석하는 방법분석 이야기/머신러닝 2018. 4. 16. 15:05
“모델링에 뛰어들기 전에 먼저 데이터를 이해하고 탐색하라!” 데이터 과학자를 위한 일반적인 조언입니다. 데이터 세트가 정리되어 있지 않으면 모델을 구축해도 문제를 해결하는 데 도움이 되지 않습니다. 마치 쓰레기를 꺼냈다, 넣었다 하는 것과 같죠. 강력한 머신러닝 시스템을 구축하기 위해서는 예측 작업을 정의하고, 문제를 해결하기 전에 데이터 세트를 탐색하고 이해해야 합니다. 데이터 과학자는 대부분의 시간을 모델링을 위한 데이터의 탐색, 정리, 준비 과정에 씁니다. 이를 통해 정확한 모델을 구축하고, 해당 모델에 적합한 가정을 확인할 수 있습니다. 데이터를 관찰하려면 어떻게 해야 할까요?데이터가 수백만 개의 관측값들로 구성되어 있으면 모두 확인할 수 없습니다. 그렇다고 첫 100개의 관측값이나 임의로 고른 ..
-
재미 그 이상! 해커톤으로 혁신하는 4가지 방법분석 이야기/비즈니스 분석 2018. 3. 15. 09:12
지난 3월 8~11일 로마 바티칸에서 교황청 최초의 해커톤(hackathon) ‘브이핵(VHacks; A Hackathon at the Vatican)’이 개최되어 세계의 이목을 끌었습니다. 전 세계의 기업, IT 개발자, 학생들이 첨단 과학 기술을 이용해 이주민, 난민과 같은 사회적 이슈와 종교간 포용, 대화 등 종교적 이슈에 대한 해결책을 찾기 위해 한자리에 모였는데요. 특히 미국 매사추세츠공과대학(MIT), 하버드대학, 조지타운대학 등 세계 유수 대학의 학생 120명이 참여해 잃어버린 출입국 서류나 머물 곳을 찾는 데 도움이 되는 앱 등 다양한 아이디어를 모색했습니다. 해커톤은 ‘해킹’과 ‘마라톤’의 합성어로 마라톤처럼 특정한 장소에서 일정한 시간 안에 데이터, API, 분석 등 IT 기술을 이용해..
-
2018년과 미래를 관통할 2가지 기술 트렌드SAS 이야기/SAS 관련 뉴스 2018. 1. 25. 15:37
자율주행차, 커넥티드 기기, 디지털 트랜스포메이션, 사물인터넷(IoT), 머신러닝, 인공지능(AI), 자동화 등 2017년 한 해를 주도해온 기술 트렌드는 2018년은 물론 그 미래에까지도 계속될 것입니다. 실질적인 차이는 이 기술들의 결합에서 찾을 수 있는데요. 한 예로, 인공지능과 사물인터넷은 그 자체로 트랜스포메이션의 성격(transformative)을 지닙니다. 사물인공지능(artificial intelligence of things)으로 구현될 연결되고 자동화된 세상의 디지털 트랜스포메이션을 상상해보세요. 2018년에는 지능(intelligence)과 자동화(Automation)라는 두 가지 파괴적인 혁신 기술의 역할이 중요해질 것입니다. 지능(Intelligence)스마트한 공장, 도시, 자동..
-
금융 사기 탐지를 위한 머신러닝 핵심 요소분석 이야기/사기 방지 및 보안 2017. 11. 6. 10:26
현대 기업에게 금융 사기, 이상 거래 탐지는 분명 어려운 도전과제입니다. 실제 사기 거래 발생률은 낮고 기업 활동의 극히 일부분에 해당되지만, 문제는 적절한 툴과 시스템을 갖추지 않는다면 엄청난 금전적 손실을 야기하는 범죄로 빠르게 이어질 수 있다는 것입니다. 더군다나 금융 사기 범죄자들은 계속해서 새로운 사기 수법을 고안해내고 점차 정교해지고 있는데요. 한가지 좋은 소식은 바로 사기 탐지 분야의 머신러닝 기술이 빠르게 발전하고 있다는 것입니다! 최신 사기 방지 시스템(FDS; Fraud Detection System)은 스스로 금융 사기의 새로운 패턴을 학습하고 적응해 이상 거래를 조기에 탐지합니다. 그렇지만 대다수 기업은 여전히 주요 사기 탐지 수단으로 비즈니스 룰(규칙) 기반의 시스템을 사용합니다...
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 3탄>분석 이야기/머신러닝 2017. 10. 25. 14:04
현존 최고의 데이터 과학자들이 뽑은 머신러닝 알고리즘 개발 베스트 프랙티스! 그 대망의 마지막 시간입니다. 이전 블로그를 통해 다양한 유형의 모델을 결합하는 방법을 소개해드렸다면, 오늘은 다양한 유형의 데이터를 결합하고, 모델의 다양한 변수를 활용하는 방법에 대해 이야기하고자 합니다. 이전 시리즈를 놓치셨나요? 블로그 1탄, 블로그 2탄을 참고해주세요. 기본기 다지기 희귀한 이벤트 탐지하기 수많은 모델 결합하기 모델 적용하기 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 시간 효과(temporal effect) 관리하기 '일반화' 이해하기 학습용 데이터에 피쳐(feature) 추가하기-학습용 데이터 세트 구축-모델에 ‘고객의 소리’ 불어넣기-모델에 ‘구매 데이터’ 불어넣기 Chapter 8-..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 2탄>분석 이야기/머신러닝 2017. 9. 22. 17:44
현존 최고의 데이터 과학자들이 뽑은 머신러닝 알고리즘 개발 베스트 프랙티스! 그 두 번째 시간입니다. 시리즈를 처음 접하시는 경우 블로그 1탄을 참고해주세요. 기본기 다지기 희귀한 이벤트 탐지하기 수많은 모델 결합하기 모델 적용하기 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 시간 효과(temporal effect) 관리하기 '일반화' 이해하기 Chapter 5. 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 하이퍼파라미터는 학습 모델을 구축 할 때 모델을 튜닝하기 위한 알고리즘의 옵션들입니다. 하이퍼파라미터는 알고리즘을 사용하여 학습할 수는 없습니다. 따라서 이러한 파라미터는 모델 을 학습시키기 전에 할당해야 합니다. 기계 학습에서 우리가 개발하고자 하는 모델의 하이퍼파라미터..
-
최적의 ‘머신러닝 알고리즘’을 고르기 위한 치트키분석 이야기/머신러닝 2017. 8. 22. 11:51
“어떤 알고리즘을 사용해야 할까요?” 수많은 종류의 머신러닝 알고리즘을 맞닥뜨린 초급자 분들이 가장 많이 물어보는 전형적인 질문인데요. 사실 이 질문에 대한 답변은 하단 내용을 비롯한 수많은 요인에 따라 달라집니다.데이터의 크기, 품질, 특성가용 연산(계산) 시간작업의 긴급성데이터를 이용해 하고 싶은 것 그렇기에 숙련된 데이터 과학자(Data scientist)조차도 여러 알고리즘을 직접 써보기 전까지는 최고의 성과를 낼 수 있는 최적의 알고리즘을 구별하기란 쉽지 않은데요. 따라서 여러 인공지능(AI)과 머신러닝 전문가들은 해당 분야의 기술을 더욱 빠르게 발전시키기 위해 지식과 경험을 공유하고 있습니다. 지난 7월, 제주도에서 인공지능 기술의 대중화와 연구 활성화를 위한 ‘머신러닝 캠프 제주 2017’이..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 1탄>분석 이야기/머신러닝 2017. 8. 9. 14:17
1980년대 후반에만 해도 머신러닝(machine learning)이나 데이터 과학자와 같은 개념은 없었습니다. 대신 통계, 분석, 데이터 마이닝, 데이터 모델링과 같은 단어가 사용됐는데요. 이후 글로벌 기업들은 30년 이상 머신러닝 모델을 연구해 왔으며, 페이스북의 이미지 인식 소프트웨어, 아마존의 음성 비서 알렉사, KT의 인공지능 서비스 기가 지니(GiGA Genie)까지 그 결과들이 연이어 쏟아지고 있죠! 이러한 결실 뒤에는 훌륭한 머신러닝 알고리즘 모델들이 있는데요. 앞으로 연재를 통해 현존 최고의 데이터 과학자들로부터 수년간 학습한 내용과 실제 수백 건의 프로젝트를 통해 확인한 최고의 모델을 기반으로 머신러닝 알고리즘 개발을 위한 베스트 프랙티스 10가지를 소개하고자 합니다. 오늘은 그 1탄으..
-
새로운 미래를 열어가는 데이터 분석의 힘SAS 이야기/SAS 관련 뉴스 2017. 7. 25. 17:48
디지털 시대의 도래와 함께 수많은 정보와 데이터가 빠르게 생성되면서 사회 다양한 분야에서 빅데이터가 폭넓게 활용되고 있습니다. 기업들도 비즈니스 데이터를 수집, 분석해서 상당한 가치를 얻을 수 있음을 잘 이해하고 있는데요. 하지만 사실 분석 활동이라는 개념은 예전부터 있었습니다. 수십 년 전인 1950년대에도 기업들은 트렌드를 파악하고 인사이트를 얻기 위해 기본적인 분석을 하고 있었습니다. 과거 분석 활동과 비교했을 때 빅데이터’ 분석의 등장으로 새롭게 얻게 된 혜택은 속도와 효율성입니다. 이전까지 기업이 데이터 수집과 분석을 통해 향후 의사 결정에 사용할 수 있는 정보를 찾아냈다면, 오늘날은 빅데이터 분석을 통해 즉각적인 의사 결정에 필요한 인사이트를 신속하게 확인할 수 있게 됐습니다. 빅데이터 분석으..