본문 바로가기
메타코드 서포터즈/빅데이터분석기사

[빅데이터분석기사] 필기 3과목 메타코드 강의 | #3 회귀분석설명 개념 정리 및 요약

by goemgoem-i 2024. 2. 9.
반응형

이번 개념 정리도 빅데이터분석기사 3과목입니다

오늘 배울 내용은 회귀분석에 대해서 자세히 알아볼까 합니다

 

https://mcode.co.kr/mypage/lecture_view?wm_id=9478

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

3과목 회귀분석설명

 

 

 

!!출제 빈도가 가장 높으니 회귀 모델 다 알고있기!

 

지도학습

 

1. 회귀 : 선형회귀

2. 분류 : 로지스틱회귀 / 판별분석 / 나이브베이즈 분류

3. 회귀/분류 모두 가능 : 의사결정나무 / 랜덤포레스트 / SVM / 인공신경망 / 앙상블 / KNN 등등

 

회귀분석

 

독립변수X가 종속변수Y에 어떻게 영향을 주는지 식으로 표현한 것

Y = B0 + B1

-특징: 식을 보고 설명이 가능해야함, 가장 적은 수의 X로 Y를 예측할 수 있어야함

-최조제곱법 : 최적의 B0, B1를 구하기

 

회귀분석의 가정

 

1. 선형성 : 독립변수X와 종속변수Y 간의 선형성

 

2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)

1) 등분산성: 산점도

2) 정규성

-H0(귀무가설) : 정규분포를 따른다

-H1(대립가설) : not H0

-검정방법: QQplot 등

3) 독립성 : 더빈왓슨 검정

* 잔차: 표본의 실제값과 회귀분석 예측값의 차이 ( 실제값- 예측값)

 

3. 단순선형회귀 : 독립변수가 1개인 경우

4. 다중선형회귀: 독립변수가 2개 이상

 

회귀분석에서 가설검정

 

1. 회귀모형: F검정, p-value가 0.05보다 작아야함

H0(귀무) : 회귀계수는 0이다

H1(대립) : 회귀계수는 0아니다

 

2. 회귀계수: t검정, p-value가 0.05보다 작아야함

H0(귀무) : i번째 회귀계수는 0이다

H1(대립) : i번째 회귀계수는 0아니다

 

 

회귀식의 성능

 

회귀식 : Y = B0 + B1X1 + B2X2 ...

 

  • 결정계수

1. 정의 : 설명력, 전체 변동에서 회귀식이 설명가능한 변동의 비율

R*R = SSR / SST = 1- (SSE/SST)

SSR: 회귀식에 의해 설명되는 변동 (예측값 - y평균값)

SSE: 회귀식으로 설명 불가한 변동 (실제값 - 예측값)

SST: 총 변동 (실제값 - y평균값)

 

2. 범위 : 0~1사이의 값을 가지며 클수록 성능이 좋음

3. 주의 : 단, 독립변수x수가 증가 -> R*R

 

반응형