이번 개념 정리도 빅데이터분석기사 3과목입니다
오늘 배울 내용은 회귀분석에 대해서 자세히 알아볼까 합니다
https://mcode.co.kr/mypage/lecture_view?wm_id=9478
3과목 회귀분석설명
!!출제 빈도가 가장 높으니 회귀 모델 다 알고있기!
지도학습
1. 회귀 : 선형회귀
2. 분류 : 로지스틱회귀 / 판별분석 / 나이브베이즈 분류
3. 회귀/분류 모두 가능 : 의사결정나무 / 랜덤포레스트 / SVM / 인공신경망 / 앙상블 / KNN 등등
회귀분석
독립변수X가 종속변수Y에 어떻게 영향을 주는지 식으로 표현한 것
Y = B0 + B1
-특징: 식을 보고 설명이 가능해야함, 가장 적은 수의 X로 Y를 예측할 수 있어야함
-최조제곱법 : 최적의 B0, B1를 구하기
회귀분석의 가정
1. 선형성 : 독립변수X와 종속변수Y 간의 선형성
2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)
1) 등분산성: 산점도
2) 정규성
-H0(귀무가설) : 정규분포를 따른다
-H1(대립가설) : not H0
-검정방법: QQplot 등
3) 독립성 : 더빈왓슨 검정
* 잔차: 표본의 실제값과 회귀분석 예측값의 차이 ( 실제값- 예측값)
3. 단순선형회귀 : 독립변수가 1개인 경우
4. 다중선형회귀: 독립변수가 2개 이상
회귀분석에서 가설검정
1. 회귀모형: F검정, p-value가 0.05보다 작아야함
H0(귀무) : 회귀계수는 0이다
H1(대립) : 회귀계수는 0아니다
2. 회귀계수: t검정, p-value가 0.05보다 작아야함
H0(귀무) : i번째 회귀계수는 0이다
H1(대립) : i번째 회귀계수는 0아니다
회귀식의 성능
회귀식 : Y = B0 + B1X1 + B2X2 ...
- 결정계수
1. 정의 : 설명력, 전체 변동에서 회귀식이 설명가능한 변동의 비율
R*R = SSR / SST = 1- (SSE/SST)
SSR: 회귀식에 의해 설명되는 변동 (예측값 - y평균값)
SSE: 회귀식으로 설명 불가한 변동 (실제값 - 예측값)
SST: 총 변동 (실제값 - y평균값)
2. 범위 : 0~1사이의 값을 가지며 클수록 성능이 좋음
3. 주의 : 단, 독립변수x수가 증가 -> R*R
'메타코드 서포터즈 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #5 회귀분석 문제풀이 및 정리 (1) | 2024.02.18 |
---|---|
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #4 다중회귀분석 개념 정리 및 요약 (0) | 2024.02.10 |
[빅데이터분석기사]필기 3과목 메타코드 강의 | #2 데이터분할 강의 정리 및 문제 풀이 (1) | 2024.01.21 |
[빅데이터분석기사]필기 3과목 메타코드 강의 | #1 분석 모형 설계 강의 정리 및 후기 (0) | 2024.01.21 |
[빅데이터분석기사] 빅데이터분석기사 필기 데이터 자격증 강의 추천 및 후기 (3) | 2024.01.07 |