본문 바로가기

[패스트캠퍼스] 데이터분석부트캠프/Excel

[1주차] 엑셀: 데이터분석도구, 피벗테이블

3. 탐색적 데이터 분석(EDA)

: 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 탐색적 분석 방법

 

데이터 형태 파악부터 해줘야 함

   - 데이터 유형, 개수, 계급 종류, 계습 개수, 계급별 데이터 개수 등

분석 결과의 질에 데이터 전처리의 영향이 큼

1) 엑셀의 데이터 분석 도구

: [파일]탭 → [옵션] → [추가 기능] →  분석 도구 (팩) 선택 → [이동] → 분석도구(팩) 체크 → [확인]

: [데이터]탭 →[데이터 분석 도구]가 추가되었는지 확인

① 기초 통계량 계산

: [데이터 분석 도구] → [기술 통계법] 선택

로우 데이터

 

 

입력 범위를 컬럼명부터 선택하고 첫째 행 이름표 사용 체크

지금은 컬럼 하나를 대상으로 했지만 다중 선택시 헷갈림 방지

 

함수 이용 / 기술통계법 이용

 

표준오차: 표본들의 평균(표본 평균)이 전체 평균(모평균)과 떨어져 있는 정도

중앙값: 데이터를 순서대로 정렬했을 때 위치적으로 중앙에 있는 값

최빈값: 가장 많이 반복되는 데이터

표준편차: 평균과 각 데이터들의 편차를 나타냄  

분산: 데이터가 평균을 기준으로 얼마나 분산되어 있는지, 값이 클수록 많이 퍼져있는 것

첨도: 데이터 분포의 뽀족한 정도(3이면 정규분포, 크면 납작, 작으면 뾰족)

왜도: 데이터 분포가 치우쳐 있는 정도(평균=중앙값일 때 0, 왜도가 양수이면 오른쪽으로 꼬리가 김)

 

② 피벗 테이블

: 각 컬럼이 어떤 의미인지 파악하는 것이 먼저

: 내가 필요한 테이블을 손으로 그려보고 엑셀로 넘어가면 보다 쉽게 그릴 수 있음

 

데이터 전체 다 쓸 때는 굳이 드래그로 지정할 필요없이 한 셀만 선택하고 [피벗 테이블] 누르면 자동으로 전체 선택

 

피벗에 넣었던 거 빼려면 그냥 드래그해서 옆에 빈 곳에 던지면 됨

 

** 필터 추가

 

** 슬라이서 삽입

: [삽입]탭 - 필터 - 슬라이서 - 원하는 기준열 체크

+) ctrl + shift + 1 숫자 3자리마다 ,찍어주는 걸로 마무리

 

** 피벗테이블보다는 함수가 좋음. 함수는 데이터 수정했을 때 바로 바로 적용되지만,  피벗은 새로고침 해줘야 하기 때문.

 

③ 산점도

: 데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프

 

 

④ 박스 플롯

: 최소값, 제 1사분위수, 중앙값, 제 3사분위수, 최대값을 활용해 그리는 그래프로 이상치 유무 파악에 유용

** IQR = 3사분위수 - 1사분위수