ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 분석 방법론, CRISP-DM
    머신러닝 with R 2019. 6. 29. 17:25

    CRISP-DM은 Cross-Industry Standard Process for Data Mining의 약자이다. 즉, Data Mining(이하 데이터 마이닝)을 위해 만들어진 분석 방법론인데, 데이터 마이닝뿐만 아니라 예측 분석, 머신러닝 등 여러 분석적 프로젝트에도 이용할 수 있다.  

     

    * 데이터 마이닝이란?

    보유한 데이터를 다양한 관점에서 분석하고, 그 결과를 유용한 정보로 조합하는 일

    (인공지능과 기계학습과 맥락이 조금 다르다고 하는데 이 부분은 더 공부한 후 포스팅 예정)

     

     

    이러한 분석 방법론이 생겨난 이유는 무엇일까? 막상  데이터 분석을 시작하려고 하면 뭐부터 시작해야 할지 막막하다. 해결해야할 문제를 어떻게 알고리즘화 해야 할지도 감이 잡히지 않는다. 즉, 어떻게 실무에 적용해야 할지 모를 때에 그 길잡이가 돼주는 것이 '분석 방법론'인 것이다.

    분석 방법론에는 크게 세 가지가 있는데, 통계적 방법론, 데이터 마이닝 방법론, 빅데이터 방법론 등이 있다.

    데이터 마이닝 방법론은 비즈니스 활용을 목적으로 만들어진 데이터 분석 방법론으로 그 중에 강력하고 검증된 방법론으로 실용적이고 유연하다는 특성을 가진 방법론이 CRISP-DM이다.

     

    CRISP-DM DIAGRAM

     

    이러한 일련의 단계는 절대적이지 않고, 필요에 따라 진행 절차를 유동적으로 변경할 수 있다.

    또한 데이터 마이닝의 프로세스는 단 한 번만의 적용으로 끝나는 것이 아니라 순환성을 지니고 있다.

    각 단계의 내용에 대해 조금 더 세부적으로 살펴보자.

     

     

    1. Business Understanding

    • 분석 프로젝트의 목적을 비즈니스의 관점에서부터 시작 -> 그 문제를 머신러닝의 문제로 전환하여 구체화하는 것.
    • 합리적인 성공의 기준 정의
    • 목표 달성을 위한 계획 수립

     

    2. Data Understanding

    • 분석을 위한 데이터의 파악 및 수집
    • 데이터가 가진 의미 파악
    • 데이터의 품질 확인 및 의미 있는 데이터 발견과 가설 검증

     

    3. Data Preparation

    • 데이터 선택
    • 데이터 정제: 수집된 각각의 데이터를 머신러닝에 적합한 형태의 데이터로 만듦
    • 필수 데이터 구성
    • 데이터 통합
    • 즉, 필요한 데이터를 선택하고 여러 데이터 조합하여 의미있는 데이터로 정제 및 가공

     

    4. Modeling

    • 사용할 실제 모델링 기법 선택
    • 데이터 및 평가지표 설정
    • 정해진 평가 방법을 통해 최적의 알고리즘 선택
    • 파라미터 최적화를 통해 최종 모델 도출

     

    5. Evaluation

    • 선택된 모델이 비즈니스 목표에 맞는지 확인
    • 중요한 비즈니스적 문제가 반영되었는지 평가
    • 최종적으로 모델링 결과를 사용할지에 대한 여부 결정
    • 남은 일정과 자원을 고려하여 모델을 전개할지, 반복을 통해 모델을 더 향상할지, 후속 프로젝트 진행 여부 결정

     

    6. Deployment (전개/배포)

    • 최종 서비스를 위한 준비
    • 시스템화에 필요한 정비
    • 모델의 모니터링 주기 및 평가지표 정의를 통해 유지보수 시점 및 방안 도출
    • 보고 및 인수인계 위한 문서 작성
    • 프로젝트 검토

     

     

     

     

     

     

    [참고] 실무에서 써먹는 머신러닝 with R

    https://www.nextobe.com/single-post/2018/04/12/CRISP-DM-%EB%B0%A9%EB%B2%95%EB%A1%A0

    반응형

    댓글

Designed by Tistory.