분석 이야기/머신러닝
-
머신러닝 해석력 시리즈 3탄: 부분의존성(PD) & 개별조건부기대치(ICE) 플롯 정복하기!분석 이야기/머신러닝 2018. 7. 27. 10:41
머신러닝 모델 해석력 시리즈 3탄! 오늘은 머신러닝 모델의 작동 원리에 대한 인사이트를 도출할 수 있는 변수를 표시하는 두 가지 방법에 대해 자세히 살펴보고자 합니다. 머신러닝 모델 해석력 시리즈 1탄과 2탄을 놓치셨다면, 클릭해주세요! 1탄: 인공지능(AI)과 머신러닝을 신뢰하기 위한 필수 조건, 해석력! 2탄: 머신러닝 해석력 시리즈 2탄: 데이터 세트를 이해하고 해석하는 방법 데이터 과학자가 모델이 어떻게 작동하는지에 대해 자세히 알고 싶어할 때, 단순히 모델의 정확성을 평가하는 것만으로는 충분하지 않습니다. 데이터 과학자들은 종종 모델 입력 변수가 어떻게 작동하는지 또 입력 변수의 값에 따라 모델의 예측이 어떻게 변화하는지 알아야 하는데요. 이 정보를 사용해 모델의 결함을 찾고, 최상의 모델을 선..
-
항공우주 연구부터 여론조사까지, 텍스트 분석의 놀라운 잠재력!분석 이야기/머신러닝 2018. 7. 17. 18:30
텍스트 분석과 자연어처리(NLP; Natural Language Processing)는 소비자의 감성을 분석하는 방법으로 널리 알려져 있습니다. 실제 많은 기업이 비정형 데이터 분석 기술을 이용해 소셜 미디어(SNS) 상의 고객 불만이나 댓글을 분석하고 적절히 대응하고 있는데요. 오늘날 전체 데이터의 90% 이상은 텍스트, 음성, 이미지, 영상 등 구조화되어 있지 않은 비정형 데이터입니다. 수동 분석만으로 이 모든 데이터에서 가치를 발굴하기에는 역부족인데요. 텍스트 분석과 감성 분석은 정교한 언어학적 규칙과 분석 모델링을 통해 사람의 마음과 비슷한 자연스러운 방식으로 텍스트를 평가하고 이 한계를 극복하도록 도와줍니다. 최근 이 텍스트 분석 기술에 인공지능(AI)과 머신러닝이 접목되면서 그 활용 범위가 훨..
-
인공지능(AI)과 미래 일자리에 대한 낙관분석 이야기/머신러닝 2018. 6. 12. 11:31
미래에 대한 좋은 소식이 있습니다. 어디선가 들어봤을지도 모르지만 인공지능(AI)과 함께하는 미래 일자리가 모두 절망적이고 암울한 것만은 아닙니다. 말콤 프랭크(Malcolm Frank)의 연구 기반 저서 ‘기계가 모든 것을 할 때 무엇을 해야 하는가(What to Do When Machines Do Everything’는 데이터를 통해 이를 증명합니다. 또 학생과 근로자는 새로운 교육 접근법을 통해 인공지능과 함께하는 미래에 더욱 잘 대비할 수 있습니다. 코넬대학교 존슨경영대학원이 주최한 디지털 트랜스포메이션 서밋에서 이 주제에 대해 미국 교육 업계 리더들과 의견을 나눴습니다. 코그니전트(Cognizant)의 전략 및 마케팅 수석부회장인 말콤 프랭크는 우리가 4차 산업혁명을 경험하고 있다고 설명합니다...
-
[프로그래밍 팁] SAS VDMML로 딥러닝 모델 구축하는 방법분석 이야기/머신러닝 2018. 5. 18. 15:17
SAS 솔루션으로 다양한 종류의 심층 신경망(DNN;Deep Neural Network) 모델을 구축할 수 있습니다. 구체적으로 컨볼루션 신경망(convolutional neural networks), 순환 신경망(recurrent neural networks), 순방향 신경망(feedforward neural networks), 오토인코더 신경망(autoencoder neural networks) 등을 생성할 수 있는데요. 오늘은 ‘SAS VDMML(Visual Data Mining and Machine Learning)'을 이용해 딥러닝 모델을 구축하는 방법을 자세히 설명해 드리고자 합니다. ‘SAS 클라우드 분석 서비스’를 활용한 딥러닝 모델 SAS VDMML은 ‘SAS Cloud Analytic ..
-
인공지능(AI)으로 의료 산업을 혁신할 수 있을까요?분석 이야기/머신러닝 2018. 5. 9. 11:11
소비자들은 다양한 산업에 빠르게 도입되고 있는 인공지능(AI)을 어떻게 받아들이고 있을까요? SAS가 최근 미국인 500명을 대상으로 조사한 결과, 소비자들은 금융이나 소매 분야보다 의료 산업의 인공지능 기술을 더욱 편안하게 여기는 것으로 나타났습니다. 특히 응답자의 47%는 수술 중에도 기꺼이 인공지능 기술의 도움을 받겠다고 답했는데요. 또 10명 중 6명(60%)은 의사가 애플워치나 핏비트와 같은 웨어러블 기기의 데이터를 사용해 생활 방식을 평가하고 조언하는 것에 대해 편안하게 생각했습니다. 실제 인공지능은 복잡하고 비용이 많이 드는 의료 문제에 대한 새로운 해결 방법을 제공하며 빠르게 헬스케어 분야에 진입하고 있는데요. 이때 인공지능을 성공적으로 활용하려면 분석적으로 생각하는 분석 조직을 구축하고,..
-
머신러닝 해석력 시리즈 2탄: 데이터 세트를 이해하고 해석하는 방법분석 이야기/머신러닝 2018. 4. 16. 15:05
“모델링에 뛰어들기 전에 먼저 데이터를 이해하고 탐색하라!” 데이터 과학자를 위한 일반적인 조언입니다. 데이터 세트가 정리되어 있지 않으면 모델을 구축해도 문제를 해결하는 데 도움이 되지 않습니다. 마치 쓰레기를 꺼냈다, 넣었다 하는 것과 같죠. 강력한 머신러닝 시스템을 구축하기 위해서는 예측 작업을 정의하고, 문제를 해결하기 전에 데이터 세트를 탐색하고 이해해야 합니다. 데이터 과학자는 대부분의 시간을 모델링을 위한 데이터의 탐색, 정리, 준비 과정에 씁니다. 이를 통해 정확한 모델을 구축하고, 해당 모델에 적합한 가정을 확인할 수 있습니다. 데이터를 관찰하려면 어떻게 해야 할까요?데이터가 수백만 개의 관측값들로 구성되어 있으면 모두 확인할 수 없습니다. 그렇다고 첫 100개의 관측값이나 임의로 고른 ..
-
차세대 챗봇과 딥러닝, 가까워진 지능형 가상 비서(IVA) 시대분석 이야기/머신러닝 2018. 2. 8. 18:04
우리 모두가 개인 비서의 도움을 받는 세상, 상상이 가시나요? 어쩌면 빠르게 다가올지도 모르겠습니다. 바로 가상 비서, 챗봇 기술의 발전 덕분인데요! 챗봇(chatbot)은 채팅(chatting)과 로봇(robot)의 합성어로 자연어 처리(NLP; Natural Language Processing)와 인공지능(AI)을 이용해 사람과의 대화를 시뮬레이션하고 응답을 도출하는 컴퓨터 프로그램입니다. 쉽게 말해 사람의 이야기에 알맞은 답이나 정보를 제공할 수 있는 기계죠. 단순하고 자동화된 작업을 처리할 때 챗봇을 이용해 시간과 비용을 절약할 수 있습니다. 예를 들어, 챗봇은 - 가족 생일에 대한 알림을 보내고, - 간단한 명령으로 사용자가 가장 좋아하는 음식을 주문하고, - 다음 휴양지를 예약하고, - 계좌 ..
-
머신러닝 해석력 시리즈 1탄: 인공지능(AI)과 머신러닝을 신뢰하기 위한 필수 조건, 해석력!분석 이야기/머신러닝 2018. 1. 19. 18:11
음악 추천부터 대출 심사, 직원 평가, 암 진단까지 현대 사회는 인공지능(AI)과 머신러닝 기반의 애플리케이션에 둘러싸여 있습니다. 기계가 사람을 대신해 내린 의사결정에 점점 더 많은 영향을 받고 있는데요. 일상적인 것부터 사람의 목숨이 걸린 중대한 의사결정에 이르기까지 우리는 머신러닝 모델에 수많은 질문을 던집니다. 이때 질문에 대한 답변은 ‘예측 모델’이 결정합니다. 생소하고 어려운 개념인데요. 데이터 과학자들은 종종 각 모델이 실제 어떻게 예측했는지에 대한 이해보다는 개별 예측의 정확성에 더 중점을 둡니다. 그렇지만 과학과 기술의 진보에 있어 머신러닝의 역할이 커짐에 따라 머신러닝 모델을 해석하고 이해하는 능력 또한 중요해지고 있습니다. 모델이 복잡할수록 더욱 이해하기 어렵습니다일부 머신러닝 모델은..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 3탄>분석 이야기/머신러닝 2017. 10. 25. 14:04
현존 최고의 데이터 과학자들이 뽑은 머신러닝 알고리즘 개발 베스트 프랙티스! 그 대망의 마지막 시간입니다. 이전 블로그를 통해 다양한 유형의 모델을 결합하는 방법을 소개해드렸다면, 오늘은 다양한 유형의 데이터를 결합하고, 모델의 다양한 변수를 활용하는 방법에 대해 이야기하고자 합니다. 이전 시리즈를 놓치셨나요? 블로그 1탄, 블로그 2탄을 참고해주세요. 기본기 다지기 희귀한 이벤트 탐지하기 수많은 모델 결합하기 모델 적용하기 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 시간 효과(temporal effect) 관리하기 '일반화' 이해하기 학습용 데이터에 피쳐(feature) 추가하기-학습용 데이터 세트 구축-모델에 ‘고객의 소리’ 불어넣기-모델에 ‘구매 데이터’ 불어넣기 Chapter 8-..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 2탄>분석 이야기/머신러닝 2017. 9. 22. 17:44
현존 최고의 데이터 과학자들이 뽑은 머신러닝 알고리즘 개발 베스트 프랙티스! 그 두 번째 시간입니다. 시리즈를 처음 접하시는 경우 블로그 1탄을 참고해주세요. 기본기 다지기 희귀한 이벤트 탐지하기 수많은 모델 결합하기 모델 적용하기 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 시간 효과(temporal effect) 관리하기 '일반화' 이해하기 Chapter 5. 국소 최적해에 빠지는 것을 방지하기 위해 모델 오토튜닝하기 하이퍼파라미터는 학습 모델을 구축 할 때 모델을 튜닝하기 위한 알고리즘의 옵션들입니다. 하이퍼파라미터는 알고리즘을 사용하여 학습할 수는 없습니다. 따라서 이러한 파라미터는 모델 을 학습시키기 전에 할당해야 합니다. 기계 학습에서 우리가 개발하고자 하는 모델의 하이퍼파라미터..
-
최적의 ‘머신러닝 알고리즘’을 고르기 위한 치트키분석 이야기/머신러닝 2017. 8. 22. 11:51
“어떤 알고리즘을 사용해야 할까요?” 수많은 종류의 머신러닝 알고리즘을 맞닥뜨린 초급자 분들이 가장 많이 물어보는 전형적인 질문인데요. 사실 이 질문에 대한 답변은 하단 내용을 비롯한 수많은 요인에 따라 달라집니다.데이터의 크기, 품질, 특성가용 연산(계산) 시간작업의 긴급성데이터를 이용해 하고 싶은 것 그렇기에 숙련된 데이터 과학자(Data scientist)조차도 여러 알고리즘을 직접 써보기 전까지는 최고의 성과를 낼 수 있는 최적의 알고리즘을 구별하기란 쉽지 않은데요. 따라서 여러 인공지능(AI)과 머신러닝 전문가들은 해당 분야의 기술을 더욱 빠르게 발전시키기 위해 지식과 경험을 공유하고 있습니다. 지난 7월, 제주도에서 인공지능 기술의 대중화와 연구 활성화를 위한 ‘머신러닝 캠프 제주 2017’이..
-
데이터 과학자가 뽑은 <머신러닝 알고리즘 개발 베스트 프랙티스 1탄>분석 이야기/머신러닝 2017. 8. 9. 14:17
1980년대 후반에만 해도 머신러닝(machine learning)이나 데이터 과학자와 같은 개념은 없었습니다. 대신 통계, 분석, 데이터 마이닝, 데이터 모델링과 같은 단어가 사용됐는데요. 이후 글로벌 기업들은 30년 이상 머신러닝 모델을 연구해 왔으며, 페이스북의 이미지 인식 소프트웨어, 아마존의 음성 비서 알렉사, KT의 인공지능 서비스 기가 지니(GiGA Genie)까지 그 결과들이 연이어 쏟아지고 있죠! 이러한 결실 뒤에는 훌륭한 머신러닝 알고리즘 모델들이 있는데요. 앞으로 연재를 통해 현존 최고의 데이터 과학자들로부터 수년간 학습한 내용과 실제 수백 건의 프로젝트를 통해 확인한 최고의 모델을 기반으로 머신러닝 알고리즘 개발을 위한 베스트 프랙티스 10가지를 소개하고자 합니다. 오늘은 그 1탄으..