데이터 분석 입문
- 데이터의 가치?
Data is a Gold Mine, the New oil...
단순히 데이터의 크기로는 가치를 측정할 수 없음
--> 활용 가능성과 파급효과를 계산해야 가치 측정 가능
- 데이터 분석 기본 절차
1. 목표 설정 - 데이터로 무엇을 할것인가? 실행 가능성과 활용 가능성을 고려
2. 데이터 추출 - 전체가 아닌 필요한 부분만 추출 (내부/외부 데이터 활용)
3. 데이터 요약, 시각화, 모형 적합 (탐색적 데이터 분석)
4. 인사이트 활용 : 데이터에 기반한 의사결정
- 데이터 분석의 가치
1. 불확실한 미래 대비
2. 데이터 기반 의사결정
3. 새로운 소통의 언어
- 데이터 분석의 절차와 방법
- 유동적이고 다양함. 상황에 의존적
1. 분석 목표와 목적을 고려
2. 데이터의 종류와 특성을 고려
주요 과정
1.데이터 수집 > 2.분석에 맞게 가공 > 3.적절한 방법의로 데이터 분석 > 4.시각화 문서화
1.데이터 수집
- 내부 Data (사내 데이터베이스, 기존 연구데이터)
- 직접 수집한 데이터 (실험결과, 설문/리서치 결과)
- 외부 데이터(정부기관 보유 공공/업체 민간 데이터)
예제) 내부데이터 + 외부 데이터( 커피 판매 시작 + 날씨 정보)
- 공공 데이터 포털(data.go.kr)
- 통계청(mdis.kostat.go.kr) 통계조사의 원자료 제공 (경제총조사, 인구총조사, 인구동향 조사, 사교육비 조사 등)
- 서울시 열린데이터(data.seoul.go.kr) (지하철, 미세먼지 등)
- SKT 빅데이터 허브 (bigdatahub.co.kr) (지역/시간대/업종별 통화량 데이터)
- 네이버 데이터랩(datalab.naver.com) (검색어/ 지역/업종/연령/성별 카드 사용 통계(비씨카드 제공)
- Kaggle(kaggle.com)
2. 분석
- 확증적 데이터 분석(Confirmatory data analysis)
: 미리 설정한 가설을 확인하기 위한 분석 (Estimation 과 Test등을 활용)
- 탐색적 데이터 분석
: 변수, 변수의 관계등 데이터 자체의 특성을 확인하기 위한 분석
Aggregation (요약)
- 데이터의 정보를 인식 가능한 수준으로 줄이는 과정 (예 : 매장별 혼잡 시간대 계산)
- 그룹별 관측치 수 , 평균, 최대값 계산등 단순 숫자요약을 의미
Model (모형)
- 정해진 알고리즘에 따라 데이터 속 변수와 관측치 간 관계를 확인
- 가능성을 수치화한 확률로 설명(예: 날씨/요일/시간에 따른 매장별 손님수와 주문상품 예측)
2. 데이터 가공 (Manipulation)
- 데이터 인식과 분석을 위해 데이터의 형태를 변환하는 과정
1. 부분 데이터 선택
예제) 시청 지점 고객의 성별/연령에 따른 상품 선호도 분석
2. 변수 결합, 분해 및 파생 변수 생성
고객 연령 -> 연령 대
3. 분석의 실행 ( 동일한 분석을 반복하여 결과의 재현 확인 필요함 , 피드백을 통해 분석 목표 및 데이터 처리, 분석 방법 수정 고려)
1. 분석 목표 설정
2. 데이터 수집
3. 탐색적 데이터 분석
- 변수나 변수 관계에 대한 열린 분석 실행
4. 확증적 데이터 분석/ 모형 적합
- 검정, 알고리즘 등을 활용한 분석 실행
5. 분석 결과 공유
4. 분석 결과 시각화 / 문서화 하기
- shiny.rstudio.com/gallery
나도 데이터 분석을 할 수 있을까?
데이터 분석 절차
1.분석목적 및 방향결정 > 2.데이터 선택/수집 > 3.데이터 탐색/정제 > 4.모델 생성/평가 > 5. 적용
1. 분석 목적 및 방향 결정
- 인터뷰 및 현황 분석을 통한 주제 설정 방향 정의
2.데이터 선택 및 수집
- 문제에 대한 가설 수립 후 데이터 정의/수집
3. 데이터 탐색 및 정제
- 샘플링 및 데이터 정제 / 파생 변수 생성/ 데이터 탐색
4. 모델 생성 및 평가
- 데이터 모델링 /결과 해석/ 모델 평가
5. 적용
- 프로세스 설계 / 시스템 개발 / 운영적용 및 모니터링(시각화)