티스토리 뷰

사이렌24 사이렌24 블로그 2018. 7. 30. 15:23

 




개인의 생활패턴 하나하나가 모이면, 요즘 각 산업에서 중요하게 언급하고 있는 '빅데이터'가 됩니다. 예를 몇 개 들어볼까요. 오늘 페이스북 피드에 뜬 재미있는 콘텐츠에 '좋아요'를 눌렀던 일, 홈쇼핑에서 주문한 알래스카산 연어가 실물과 달라 불만을 터뜨리며 전화했던 일, 여름휴가 계획을 잡으려고 저렴한 항공권을 검색하여 찾아본 일, 월급날이 되어 각종 요금을 납부한 일 등등. 일상에서 일어나는 별 특별할 것 없는 행동이지만, 이들을 한 개 한 개 수집하여 뜯어 보고 연구하면 아주 새롭고 유익한 정보가 된다는 것이 핵심입니다. 오늘 이야기할 '데이터사이언스(data science)'란 바로 이런 거예요. 결국 사람이 바탕이 되는 따뜻하고도 흥미로운 학문, 지금부터 자세히 들여다보겠습니다.


 

 

 먼저 알고 넘어 갑시다! 데이터사이언스란?


'데이터사이언스'는 보시다시피
'데이터'와 '사이언스(과학)'의 합성어입니다. (이와 관련해 많은 정의가 있지만) 포괄적으로 '데이터와 관련된 연구를 하는 학문'이라고 정의합니다. 여기에서 말하는 '연구'는 데이터의 구체적인 내용을 연구하는 것이 아닌, 데이터 또는 데이터 사이의 서로 다른 특징이나 공통적인 특징을 추출하고 의미 있는 통찰을 도출해 내는 것이 특징입니다.

그렇다면 '데이터사이언스'에서 '데이터'와 '사이언스' 각각의 의미를 살펴볼까요. 우선 '데이터'는 일반적으로 '빅데이터'를 의미합니다. '빅데이터'의 정의에도 여러 가지가 있지만, '데이터사이언스'에서는 분석의 속성을 대표할 수 있는 '3V'로 정의하는 것이 가장 적합해 보입니다. 첫째는 '큰 볼륨(Volume, 규모)', 둘째는 순간순간의 변화를 측정한 결과를 '빠르게 생성하는 속도(Velocity)', 셋째는 다양한 속성과의 영향 및 연계성을 검토할 수 있는 '형식의 다양성(Variety)'입니다. 다음으로 '사이언스'는 과학적인 접근 방법의 수행을 의미하는데요, '데이터사이언스'에서 분석은 객관적이고 검증된 방법론을 개발 또는 차용하여 진행합니다.


 데이터는 이렇게 나뉘고 이렇게 분석합니다!


데이터의 분류는 두 가지로 나뉩니다.
첫째 '정형 데이터'는 미리 정의된 형태와 방식으로 정리된 정보를 의미합니다. 일반적으로 숫자나 정의된 문자 등의 형태로 저장된 데이터베이스(Data Base), 스프레드시트 등이 그 예이지요. 둘째 '비정형 데이터'는 미리 정의된 형태와 방식으로 정리되지 않은 정보를 의미합니다. 페이스북과 트위터, 유튜브 영상, 이미지 파일, 음원 파일, 워드 문서, PDF 문서 등이 그 예입니다. '빅데이터'는 약 85%가량이 '비정형 데이터'라고 해요. 이렇듯 급속도로 증가하고 있지만, '정형 데이터' 분석에 사용하고 있는 많은 기법이 '비정형 데이터'에서는 적용하기 힘든 한계성을 지니고 있습니다.

그렇다면 '비정형 데이터'는 어떻게 처리하고 분석할까요. 일반적으로는 '비정형 데이터'의 '정형화'를 통해 분석하고 있으나, 비정형 데이터를 정형화하는 과정에서 많은 정보를 잃어버릴 수 있어 '원시 비정형 데이터(개인이나 조직에 의해 발생하거나 생성되는 데이터)'에 가까운 형태를 사용해 분석하는 시도가 많아지고 있습니다. 데이터 분석 기법으로는 기존 통계학과 전산학에서 사용되던 데이터 마이닝1), 머신 러닝(기계 학습)2), 자연어 처리3), 패턴인식4) 등이 해당하지요. 소셜미디어 활동 등 비정형 데이터의 증가로 인해 분석 기법 중에서 텍스트 마이닝5), 오피니언 마이닝6), 소셜네트워크 분석, 군집 분석7) 등이 주목받고 있습니다.


**

1) 데이터 마이닝: 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정(출처: 네이버 지식백과)
2) 머신 러닝: 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법(출처: 네이버 지식백과)
3) 자연어 처리: 컴퓨터를 이용하여 사람 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술(출처: 네이버 지식백과)
4) 패턴인식: 기계에 의하여 도형·문자 등을 식별시키는 것(출처: 네이버 지식백과)
5) 텍스트 마이닝: 문자로 이뤄진 데이터에서 새롭고 유용한 정보를 찾아내는 기술(출처: 한경 경제용어사전)
6) 오피니언 마이닝: 웹사이트와 소셜미디어에서 특정 주제에 대한 여론이나 정보(댓글이나 게시글)를 수집, 분석해 평판을 도출하는 빅데이터 처리 기술(출처: 한경 경제용어사전)
7) 군집 분석: 각 대상의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 기법.(출처: 네이버 지식백과)




 결국 '소비자를 이롭게' 하는 데이터사이언스 사례

 


 

'데이터사이언스'는 기존의 통계분석을 보다 풍성하게 수행하고 검증함으로써 다양한 각도에서 의사 결정을 지원할 수 있습니다. 예를 들면 이전에는 제품을 개선하기 위해 리서치 회사에 의뢰하여 설문조사를 하고, 설문에 선택된 답을 코딩(Coding, 숫자로 입력)하여 분석을 통해 제품의 어떤 특징에 다수의 고객이 불만이라고 선택했는지를 파악하여 제품을 개선했었지요. 하지만 최근에는 고객에게 문의나 항의 전화를 받은 내용을 글로 전환(STT: Speech to Text)하거나, 상품 구매 후기, 홈페이지 댓글 등을 의미 있는 단위 형태(형태소, 말뭉치 등)로 전환(NLP: Natural Language Process)하여 강한 불만이 제기된 것이 제품의 어떤 특성과 연관이 있는지 분석하고 제품을 개선하게 됩니다.




 SCI평가정보의 데이터사이언스실에서는 어떤 일을 할까요?

 


 

SCI평가정보는 신용정보 회사입니다. 전 국민과 사업자의 금융정보(카드/대출/보증 정보, 연체정보, 체납정보 등)와 개인의 실명인증, 본인확인, 명의도용 관련된 개인정보를 보유하고 있지요. SCI평가정보 데이터사이언스실에서는 해당 정보를 가공 및 융합하고 분석하여 개인의 신용 상태 및 신용도를 점수화해 제공하는 일을 하고 있습니다. 데이터를 정제하고, 다양한 분석 방법을 통해 검증함으로써 보다 정확한 신용도를 산출하기 위해 노력하고 있는 것이지요. 앞으로 통신요금, 공공요금, 국민연금, 건강보험 등 '비금융 정보'의 수집을 강화하고, 다양한 머신러닝과 AI 분석 기법을 적용해 금융 및 비금융에서 성실한 활동을 한 개인이 한 사람도 신용도에서 불이익을 받지 않도록, 데이터사이언스실로서의 역할을 해낼 것입니다. 여러분 한 분 한 분의 정보를 다루는 만큼 그 무엇 하나 놓치지 않고 의미 있는 정보로 만들기 위해 오늘도 데이터사이언스실의 불은 켜져 있습니다. 관심 있게 그리고 흥미롭게 지켜봐 주시길 바랍니다.



 

 

댓글을 달아 주세요