3. 탐색적 데이터 분석(EDA)
: 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 탐색적 분석 방법
데이터 형태 파악부터 해줘야 함
- 데이터 유형, 개수, 계급 종류, 계습 개수, 계급별 데이터 개수 등
분석 결과의 질에 데이터 전처리의 영향이 큼
1) 엑셀의 데이터 분석 도구
: [파일]탭 → [옵션] → [추가 기능] → 분석 도구 (팩) 선택 → [이동] → 분석도구(팩) 체크 → [확인]
: [데이터]탭 →[데이터 분석 도구]가 추가되었는지 확인
① 기초 통계량 계산
: [데이터 분석 도구] → [기술 통계법] 선택
입력 범위를 컬럼명부터 선택하고 첫째 행 이름표 사용 체크
지금은 컬럼 하나를 대상으로 했지만 다중 선택시 헷갈림 방지
표준오차: 표본들의 평균(표본 평균)이 전체 평균(모평균)과 떨어져 있는 정도
중앙값: 데이터를 순서대로 정렬했을 때 위치적으로 중앙에 있는 값
최빈값: 가장 많이 반복되는 데이터
표준편차: 평균과 각 데이터들의 편차를 나타냄
분산: 데이터가 평균을 기준으로 얼마나 분산되어 있는지, 값이 클수록 많이 퍼져있는 것
첨도: 데이터 분포의 뽀족한 정도(3이면 정규분포, 크면 납작, 작으면 뾰족)
왜도: 데이터 분포가 치우쳐 있는 정도(평균=중앙값일 때 0, 왜도가 양수이면 오른쪽으로 꼬리가 김)
② 피벗 테이블
: 각 컬럼이 어떤 의미인지 파악하는 것이 먼저
: 내가 필요한 테이블을 손으로 그려보고 엑셀로 넘어가면 보다 쉽게 그릴 수 있음
데이터 전체 다 쓸 때는 굳이 드래그로 지정할 필요없이 한 셀만 선택하고 [피벗 테이블] 누르면 자동으로 전체 선택
피벗에 넣었던 거 빼려면 그냥 드래그해서 옆에 빈 곳에 던지면 됨
** 필터 추가
** 슬라이서 삽입
: [삽입]탭 - 필터 - 슬라이서 - 원하는 기준열 체크
+) ctrl + shift + 1 숫자 3자리마다 ,찍어주는 걸로 마무리
** 피벗테이블보다는 함수가 좋음. 함수는 데이터 수정했을 때 바로 바로 적용되지만, 피벗은 새로고침 해줘야 하기 때문.
③ 산점도
: 데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프
④ 박스 플롯
: 최소값, 제 1사분위수, 중앙값, 제 3사분위수, 최대값을 활용해 그리는 그래프로 이상치 유무 파악에 유용
** IQR = 3사분위수 - 1사분위수
'[패스트캠퍼스] 데이터분석부트캠프 > Excel' 카테고리의 다른 글
[1주차] 엑셀: 기초 통계 1 (0) | 2023.02.27 |
---|---|
[1주차] 엑셀: 시각화_차트, 조건부서식 (0) | 2023.02.24 |
[1주차] 엑셀: 함수_SUMIF, 기능_텍스트나누기, 필터, 데이터유효성검사 (0) | 2023.02.23 |
[1주차] 엑셀: 함수_IF, COUNT, VLOOKUP, MATCH, INDEX (0) | 2023.02.23 |
[1주차] 엑셀: 참조, 빠른실행도구모음, 단축키, 표시형식 (0) | 2023.02.21 |