데이터 분석 입문

데이터 분석 입문

탑씻 2020. 5. 11. 09:29
  • 데이터의 가치?

Data is a Gold Mine, the New oil... 

단순히 데이터의 크기로는 가치를 측정할 수 없음

         --> 활용 가능성과 파급효과를 계산해야 가치 측정 가능

  • 데이터 분석 기본 절차

1. 목표 설정 - 데이터로 무엇을 할것인가?  실행 가능성과 활용 가능성을 고려

2. 데이터 추출 - 전체가 아닌 필요한 부분만 추출 (내부/외부 데이터 활용)

3. 데이터 요약, 시각화, 모형 적합 (탐색적 데이터 분석)

4. 인사이트 활용 : 데이터에 기반한 의사결정

  • 데이터 분석의 가치

1. 불확실한 미래 대비

2. 데이터 기반 의사결정

3. 새로운 소통의 언어

  • 데이터 분석의 절차와 방법

- 유동적이고 다양함. 상황에 의존적

1. 분석 목표와 목적을 고려

2. 데이터의 종류와 특성을 고려

  주요 과정

    1.데이터 수집 > 2.분석에 맞게 가공 > 3.적절한 방법의로 데이터 분석 > 4.시각화 문서화

1.데이터 수집

- 내부 Data (사내 데이터베이스, 기존 연구데이터)

- 직접 수집한 데이터 (실험결과, 설문/리서치 결과)

- 외부 데이터(정부기관 보유 공공/업체 민간 데이터)

예제) 내부데이터 + 외부 데이터( 커피 판매 시작 + 날씨 정보)

- 공공 데이터 포털(data.go.kr)

   -  통계청(mdis.kostat.go.kr) 통계조사의 원자료 제공 (경제총조사, 인구총조사, 인구동향 조사, 사교육비 조사 등)

   - 서울시 열린데이터(data.seoul.go.kr) (지하철, 미세먼지 등)

   - SKT 빅데이터 허브 (bigdatahub.co.kr) (지역/시간대/업종별 통화량 데이터)

   - 네이버 데이터랩(datalab.naver.com) (검색어/ 지역/업종/연령/성별 카드 사용 통계(비씨카드 제공)

   - Kaggle(kaggle.com)

 

2. 분석

- 확증적 데이터 분석(Confirmatory data analysis)

 : 미리 설정한 가설을 확인하기 위한 분석 (Estimation 과 Test등을 활용)

- 탐색적 데이터 분석

 : 변수, 변수의 관계등 데이터 자체의 특성을 확인하기 위한 분석

 

Aggregation (요약)

 - 데이터의 정보를 인식 가능한 수준으로 줄이는 과정 (예 : 매장별 혼잡 시간대 계산)

 - 그룹별 관측치 수 , 평균, 최대값 계산등 단순 숫자요약을 의미

Model (모형)

 - 정해진 알고리즘에 따라 데이터 속 변수와 관측치 간 관계를 확인

 - 가능성을 수치화한 확률로 설명(예: 날씨/요일/시간에 따른 매장별 손님수와 주문상품 예측)

 

2. 데이터 가공 (Manipulation)

 - 데이터 인식과 분석을 위해 데이터의 형태를 변환하는 과정 

 1. 부분 데이터 선택

  예제) 시청 지점 고객의 성별/연령에 따른 상품 선호도 분석

 2. 변수 결합, 분해 및 파생 변수 생성

 고객 연령 -> 연령 대 

3. 분석의 실행 ( 동일한 분석을 반복하여 결과의 재현 확인 필요함 , 피드백을 통해 분석 목표 및 데이터 처리, 분석 방법 수정 고려)

1. 분석 목표 설정

2. 데이터 수집

3. 탐색적 데이터 분석

 - 변수나 변수 관계에 대한 열린 분석 실행

4. 확증적 데이터 분석/ 모형 적합

- 검정, 알고리즘 등을 활용한 분석 실행

5. 분석 결과 공유

 

 

4. 분석 결과 시각화 / 문서화 하기

 - shiny.rstudio.com/gallery

 

나도 데이터 분석을 할 수 있을까?

데이터 분석 절차

1.분석목적 및 방향결정 > 2.데이터 선택/수집 > 3.데이터 탐색/정제 > 4.모델 생성/평가 > 5. 적용

1. 분석 목적 및 방향 결정

- 인터뷰 및 현황 분석을 통한 주제 설정 방향 정의

2.데이터 선택 및 수집

- 문제에 대한 가설 수립 후 데이터 정의/수집

3. 데이터 탐색 및 정제

- 샘플링 및 데이터 정제 / 파생 변수 생성/ 데이터 탐색

4. 모델 생성 및 평가

- 데이터 모델링 /결과 해석/ 모델 평가

5. 적용

 - 프로세스 설계 / 시스템 개발 / 운영적용 및 모니터링(시각화)