안녕하세요!
벌써 에이블런 체인저스 2번째 강의 날이 찾아왔네요!

오늘 배워볼 것은 다양한 통계 분석 기법입니다.
여기서 잠깐!통계 분석이 무엇일가요?
통계 분석이란, 특정 집단, 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계분석방법을 이용해 의사결정을 하는 과정을 뜻합니다
통계분석은 크게 세가지로 나뉠 수 있는데요,
1. 대상 집단에 대한 정보
2. 통계적 추론
3. 기술통계
로 볼 수 있겠습니다.
그럼 하나하나 톺아볼가요?

1. 대상 집단에 대한 정보
: 자료를 요약·정리한 결과, 숫자/그림으로 정리된 각종 통계를 말합니다.
우리가 흔히 아는 표, 바그래프, 파이차트, 산포도 등,
데이터 자료를 보고싶은 주제로 정리하여 한눈에 볼 수 있게 만든 것이죠!
2. 통계적 추론
: 수집된 자료를 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것 ・추정(estimation), 가설검정(hypothesis test), 예측(forecasting)
수집된 데이터의 동일한 특징이나 공통점을 찾아서 이 집단이 앞으로 어떨것이다, 추정하고 예측하는것을 뜻해요!
3. 기술통계
: 수집된 자료를 정리·요약하기 위해 사용되는 기초통계
기술통계는 영어로 "Descriptive Statistics"라고도 하는데요, 자료를 요약하는 아주 기초적인 통계 방식입니다. 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대 략적 이해와 분석에 대한 통찰력을 얻기에 유리한 방법이죠!

이번 수업에서는 이 [기술통계]를 이용해 데이터 분석 후 인사이트를 얻어 볼 텐데요,
그 전에 기술통계에 대해 더 자세히 알아보아요!
인과관계의 이해
: 통계 분석 전, 우리는 반드시 인과관계를 먼저 알아봐야해요. 인과관계란 말 그대로 원인과 결과를 나타내는 말입니다.
- 종속변수(반응변수,y) : 다른 변수의 영향을 받는 변수
- 독립변수(설명변수,x) : 영향을 주는 변수
- 산점도(scatter plot) : 좌표평면 위에 점들로 두 변수 사이의 선형관계, 함수관계, 이상값 존재, 몇 개의 집단으로 구분 되는지 표현
- 공분산(covariance) : 두 확률변수 X, Y의 방향의 조합(선형성)

자... 이쯤이면 분석에 대한 기초지식은 갖췄다고 봐야겠네요!
이제 한번 분석에 들어가 볼가요?
상관분석
(Correlation Analysis)
: a와 b간의 관계가 있는지 알아보는 기법
추세선 생성방법
- Scatter plot 생성
- 점 클릭
- 우클릭
- 추세선 추가
- 페인터 아이콘 눌러서 서식 변경
추세선 분석
- 위에서 아래로 떨어짐 → 음의 상관관계 --> 예) 코로나 확진자 증가 & 오프라인 구매자 감소
- 아래에서 위로 올라감 → 양의 상관관계
- 직선 → 관계가 거의 없음
회귀분석
(Linear Regression)
: 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법
회귀분석 3 포인트
- 공변성: x,y가 같이 움직이는 경향 → 한 변수가 움직이면 다른 변수가 같이 움직임
- 시간적 선후관계: 시간적으로 어느 하나가 먼저 변화했을 때 다른 하나가 뒤따라 변화하는 관계 x가 움직이면 y가 뒤따라 움직이는 경향 → 확진자 상승 후 오프라인 매출 하강
- 비허위성: 제 3의 변수가 영향을 주면 안됨, 공변성과 선후관계의 양상이 제3의 다른 변인으로 설명될 수 없어야함
결론,
→ 원인과 결과가 중요한 분석!
기본 수식
Y = ax+b
→ x가 얼마나 변하냐에 따라 y값이 달라짐
X: 원인 Y: 결과
예제에선 행복점수가 Y = 결과, 1인당 GDP가 X = 원인
어려울때는 문장으로 만들어보자!
예시: 연봉 연차
연봉이 올라갈수록 연차가 올라간다 → X
연차가 올라갈수록 연봉이 올라간다 → O
= 연봉:Y 연차:X
회귀분석 잔차 검증
- 오차: 모집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이
- 잔차(residual): 표본집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이, 잔차 = 관측 - 예측 → 0에 가까울수록 모델이 검증력을 가짐
선형 적절성 검토
1. 모형이 통계적으로 유의미한가? → F통계량(p값) 확인
2. 회귀계수들이 유의미한가? → 계수의 t값, p값 또는 신뢰구간 확인
3. 모형이 얼마나 설명력을 갖나? → 결정계수(R-square) 확인
4. 모형이 데이터를 잘 적합하고 있나? → 잔차 그래프 그리고 회귀진단
검증 순서
- F value가 0.05보다 작은지 체크
- P value가 0.05보다 작은지 체크
- 잔차가 0에 가까운지 체크
전처리 방법 - 분석시에 무조건 다 숫자로 변환
- 테이블
- 머리글 체크 & 표 선택
- 확인
- 열추가 클릭 > 조건 열 클릭 > 조건값 입력
- 확인 클릭
- 오리지널 컬럼 삭제
- 문자열 컬럼도 삭제
오늘은 이렇게 두가지 분석 방법에 대해 배워봤습니다!
어떠셧나용?! 저는 꽤 어려웠습니다만....!
그래도 배우는 재미가 쏠쏠하네욥!!

그럼 다음 강의후에 만나요!
'[에이블런] 디지털마케팅_새싹' 카테고리의 다른 글
[에이블런] 디지털 마케팅 취업캠프 체인저스 광진3기 TIL 2주차 여섯번째 강의_제품 서비스 개발과 마케팅 전략 프로세스 (0) | 2024.06.13 |
---|---|
[에이블런] 디지털 마케팅 취업캠프 체인저스 광진3기 TIL 2주차 다섯번째 강의_소비자 행동과 유형 분석 (0) | 2024.06.13 |
[에이블런] 디지털 마케팅 취업캠프 체인저스 광진3기 TIL 2주차 네번째 강의_시장과 고객조사 (0) | 2024.06.12 |
[에이블런] 디지털 마케팅 취업캠프 체인저스 광진3기 TIL 2주차 세번째 강의_페르소나 & 소셜데이터 (2) | 2024.06.10 |
[에이블런] 디지털 마케팅 취업캠프 체인저스 3광진3기 TIL 1주차 첫번째 강의_디지털마케팅 (0) | 2024.06.04 |