데이터사이언티스트
-
데이터 분석 프로젝트를 성공적으로 시작하기 위한 체크 리스트 10가지분석 이야기/비즈니스 분석 2018. 10. 17. 12:05
필자는 데이터 전문가와 엔터프라이즈 시스템 컨설턴트로서 오랜 경력을 쌓아왔으며, 저자와 대학 교수로서 교육 활동도 진행하고 있습니다. 그 동안 200여 개의 개인, 50개 이상의 그룹을 위한 데이터 분석 프로젝트를 감독하면서 수많은 분석 프랙티스를 연구해왔는데요. 중요한 한 가지는 분석 프로젝트를 성공적으로 시작하기 위한 단 하나의 청사진은 존재하지 않는다는 것입니다. 하지만 다양한 성공 또는 실패 사례들을 기반으로 개인이나 기업이 데이터 분석 프로젝트에 착수할 때 유용하게 활용할 수 있는 핵심 체크 리스트를 도출할 수 있었는데요. 지금부터 분석 프로젝트를 성공적으로 시작하기 위해 고민해봐야 할 10가지 질문을 소개합니다. Q1. 데이터 분석 프로젝트를 처음으로 시도하는 건가요? 기업 문화는 데이터 분석..
-
데이터 마이닝과 머신러닝을 활용한 ‘시각적 분석’의 핵심 매력!SAS 이야기/SAS 관련 뉴스 2018. 9. 17. 14:32
최근 독일에서 개최된 SAS 포럼에서는 데이터 과학 및 분석과 관련된 다양한 핸즈온(hands-on) 세션과 워크숍이 진행됐습니다. 이전 포럼에서는 볼 수 없었던 몇 가지 분석 동향의 큰 변화가 있었는데요. 주요 시사점을 소개합니다. 분석의 대중화 올해 워크숍의 티켓은 일찍부터 매진이었습니다. 그 자체만으로도 기분 좋은 소식이지만, 사실 더 중요한 사실을 암시하는데요. 이는 참석자 모두가 데이터 사이언티스트가 아니었다는 것과도 연결됩니다. 이전 포럼과는 달리 여러 비즈니스 사용자들이 참석했는데요. 분석이 전문가들을 위한 기술에서 기업 전체의 모든 사용자들을 위한 솔루션으로 자리잡았음을 시사합니다. 또 분석을 활용하지만 그것이 비즈니스에서의 주된 역할은 아닌 ‘시민 데이터 과학자(Citizen Data S..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 3탄>분석 이야기/머신러닝 2017. 10. 25. 14:04
현존 최고의 데이터 과학자들이 뽑은 머신러닝 알고리즘 개발 베스트 프랙티스! 그 대망의 마지막 시간입니다. 이전 블로그를 통해 다양한 유형의 모델을 결합하는 방법을 소개해드렸다면, 오늘은 다양한 유형의 데이터를 결합하고, 모델의 다양한 변수를 활용하는 방법에 대해 이야기하고자 합니다. 이전 시리즈를 놓치셨나요? 블로그 1탄, 블로그 2탄을 참고해주세요. 기본기 다지기 희귀한 이벤트 탐지하기 수많은 모델 결합하기 모델 적용하기 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 시간 효과(temporal effect) 관리하기 '일반화' 이해하기 학습용 데이터에 피쳐(feature) 추가하기-학습용 데이터 세트 구축-모델에 ‘고객의 소리’ 불어넣기-모델에 ‘구매 데이터’ 불어넣기 Chapter 8-..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 2탄>분석 이야기/머신러닝 2017. 9. 22. 17:44
현존 최고의 데이터 과학자들이 뽑은 머신러닝 알고리즘 개발 베스트 프랙티스! 그 두 번째 시간입니다. 시리즈를 처음 접하시는 경우 블로그 1탄을 참고해주세요. 기본기 다지기 희귀한 이벤트 탐지하기 수많은 모델 결합하기 모델 적용하기 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 시간 효과(temporal effect) 관리하기 '일반화' 이해하기 Chapter 5. 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 하이퍼파라미터는 학습 모델을 구축 할 때 모델을 튜닝하기 위한 알고리즘의 옵션들입니다. 하이퍼파라미터는 알고리즘을 사용하여 학습할 수는 없습니다. 따라서 이러한 파라미터는 모델 을 학습시키기 전에 할당해야 합니다. 기계 학습에서 우리가 개발하고자 하는 모델의 하이퍼파라미터..
-
최적의 ‘머신러닝 알고리즘’을 고르기 위한 치트키분석 이야기/머신러닝 2017. 8. 22. 11:51
“어떤 알고리즘을 사용해야 할까요?” 수많은 종류의 머신러닝 알고리즘을 맞닥뜨린 초급자 분들이 가장 많이 물어보는 전형적인 질문인데요. 사실 이 질문에 대한 답변은 하단 내용을 비롯한 수많은 요인에 따라 달라집니다.데이터의 크기, 품질, 특성가용 연산(계산) 시간작업의 긴급성데이터를 이용해 하고 싶은 것 그렇기에 숙련된 데이터 과학자(Data scientist)조차도 여러 알고리즘을 직접 써보기 전까지는 최고의 성과를 낼 수 있는 최적의 알고리즘을 구별하기란 쉽지 않은데요. 따라서 여러 인공지능(AI)과 머신러닝 전문가들은 해당 분야의 기술을 더욱 빠르게 발전시키기 위해 지식과 경험을 공유하고 있습니다. 지난 7월, 제주도에서 인공지능 기술의 대중화와 연구 활성화를 위한 ‘머신러닝 캠프 제주 2017’이..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 1탄>분석 이야기/머신러닝 2017. 8. 9. 14:17
1980년대 후반에만 해도 머신러닝(machine learning)이나 데이터 과학자와 같은 개념은 없었습니다. 대신 통계, 분석, 데이터 마이닝, 데이터 모델링과 같은 단어가 사용됐는데요. 이후 글로벌 기업들은 30년 이상 머신러닝 모델을 연구해 왔으며, 페이스북의 이미지 인식 소프트웨어, 아마존의 음성 비서 알렉사, KT의 인공지능 서비스 기가 지니(GiGA Genie)까지 그 결과들이 연이어 쏟아지고 있죠! 이러한 결실 뒤에는 훌륭한 머신러닝 알고리즘 모델들이 있는데요. 앞으로 연재를 통해 현존 최고의 데이터 과학자들로부터 수년간 학습한 내용과 실제 수백 건의 프로젝트를 통해 확인한 최고의 모델을 기반으로 머신러닝 알고리즘 개발을 위한 베스트 프랙티스 10가지를 소개하고자 합니다. 오늘은 그 1탄으..
-
새로운 미래를 열어가는 데이터 분석의 힘SAS 이야기/SAS 관련 뉴스 2017. 7. 25. 17:48
디지털 시대의 도래와 함께 수많은 정보와 데이터가 빠르게 생성되면서 사회 다양한 분야에서 빅데이터가 폭넓게 활용되고 있습니다. 기업들도 비즈니스 데이터를 수집, 분석해서 상당한 가치를 얻을 수 있음을 잘 이해하고 있는데요. 하지만 사실 분석 활동이라는 개념은 예전부터 있었습니다. 수십 년 전인 1950년대에도 기업들은 트렌드를 파악하고 인사이트를 얻기 위해 기본적인 분석을 하고 있었습니다. 과거 분석 활동과 비교했을 때 빅데이터’ 분석의 등장으로 새롭게 얻게 된 혜택은 속도와 효율성입니다. 이전까지 기업이 데이터 수집과 분석을 통해 향후 의사 결정에 사용할 수 있는 정보를 찾아냈다면, 오늘날은 빅데이터 분석을 통해 즉각적인 의사 결정에 필요한 인사이트를 신속하게 확인할 수 있게 됐습니다. 빅데이터 분석으..