본문 바로가기
메타코드 서포터즈/빅데이터분석기사

[빅데이터분석기사] 필기 3과목 메타코드 강의 | #5 회귀분석 문제풀이 및 정리

by goemgoem-i 2024. 2. 18.
반응형

회귀분석과 다중회귀분석에 이어서 회귀분석 관련 문제를 풀이해볼까 합니다

회귀분석과 다중회귀분석 관련 개념 정리는 아래 링크 참고하세요!

https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=5&lecture_num=2&lecture_sub=15

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

 

 

회귀분석 문제

 

 

회귀분석에 대한 자세한 개념 설명은 아래 링크 참고하세요!

 

[메타코드M 빅데이터 분석 기사 필기] 3과목 회귀분석설명 개념 정리 및 요약

이번 개념 정리도 빅데이터분석기사 3과목입니다 오늘 배울 내용은 회귀분석에 대해서 자세히 알아볼까 합니다 https://mcode.co.kr/mypage/lecture_view?wm_id=9478 메타코드M 빅데이터 , AI 강의 플랫폼 & IT

toonovel.tistory.com

 

회귀분석이란? 독립변수가 종속변수에 어떻게 영향을 주는지 식으로 표현한 것

 

 

 

Q1 회귀모형에 대한 설명으로 틀린 것은?
보기 
1. 회귀모형의 귀무가설은 "회귀계수가 0이다"
2. 유의수준 5%이하에서 회귀모형의 p-value 값이 0.05보다 커야 통계적으로 유의하다고 할 수 있다
3. 회귀모형에 대해서는 F검정을 쓴다
4. 회귀계수에 대해서는 t검정을 쓴다
  • 풀이

회귀모형에 가설검정 이란? -> 회귀모형, 회귀계수가 통계적으로 유의한지 판별

 

 

* p-value(유의확률) < a (유의수준) (일반적으로 5% , 0.05)  :

통계적으로 유의하다 = 귀무가설 기각, 대립가설 채택 = 즉 회귀계수가 0가 0이 아니다

 

 

1. 회귀모형: F검정, p-value가 0.05보다 작아야함

 H0(귀무) : 회귀계수(B1)는 0이다

 H0(대립) : 회귀계수는 0이 아니다 -> 회귀계수가 존재한다 = 회귀모형이 통계적으로 유의하다 

 

 

2. 회귀계수 : t검정, p-value가 0.05보다 작아야함

 H0(귀무) : i번째 회귀계수는 0이다

 H0(대립) : i번째 회귀계수는 0이 아니다 = 회귀계수가 유의하다 

 

 

  • 정답 : 2번

p-value가 0.05보다 작아야지 통계적으로 유의하다고 할 수 있음

 

 

 

Q2 회귀모형에서 결정계수(R^2)에 대한 설명으로 틀린 것은?
보기
1. 결정계수는 1에 가까울 수록 좋으나, 무조건 크다고 좋은 건 아니다
2. 결정계수는 전체 변동중에 회귀식이 설명 불가능한 변동의 비율이다
3. 결정계수는 SSR/SST 로 구할 수 있다
4. 다중 회귀분석에서 모델 선택시 수정 결정계수도 함께 고려할 필요가 있다.

 

  • 풀이

결정계수란? 설명력, 전체 변동에서 회귀식이 설명 가능한 변동의 비율

R^2 = SSR / SST = 1 - (SSE/SST)

 

 

SSR = 회귀식에 의해 설명되는 변동 (예측값 - y평균값)

SSE = 회귀식으로 설명 불가능한 변동 (실제값 - 예측값) - 잔차 

SST = 총 변동(SSR + SSE)   (실제값 - y평균값)

 

범위 : 0과 1사이의 값을 가지고 클수록 성능이 좋음

주의: 회귀식에서 구하는 것은 독립변수X가 최소이면서 성능 R이 높이도록 하는 것

단, 독립변수 수가 증가하면 R^2도 증가함 : 비효율적 & 식 복잡 

-> 이를 보정하기 위한 R^2 adjust(수정결정계수) 값이 있음

R^2 adjust(수정결정계수): 독립변수의 수가 증가하면 패널티를 줌

 

  • 정답 : 2번

결정계수는 회귀식이 설명 가능한 변동의 비율임

*다중 회귀분석(독립변수가 두개 이상 인 것)에서 모델 선택할 때 수정결정계수도 함께 고려해야함!!*

 

 

 

Q3 회귀분석에서 잔차에 대한 3가지 가정으로 틀린 것은? (꼭 암기)
보기
1. 정규성
2. 등분산성
3. 독립성
4. 다중공선성

 

  • 풀이

[잔차의 3가지 가정]

 

1) 등분산성 

산점도 확인 가능 ( 0을 기준으로 고르게 퍼져있어야함)

단, 독립변수에 따라서 값이 증가하거나 감소하면 잔차의 가정에 위반된 것

 

2) 정규성 

-H0(귀무가설) : 정규분포를 따름(귀무가설이 정규성을 따른다)

 H1(대립가설) : not H0 = 정규분포를 따르지 않음

-검정방법 : QQ plot , 샤피로윌크 검정, 콜모고로프-스미르노프검정(비모수 검정).히스토그

 

3) 독립성

더빈왓슨 검정(그래프를 봐서 하는 것이 아님)

 

  • 정답 4번

다중공선성 : 다중회귀에서 독립변수간에 선형회귀가 있으면 다중공선성이라고 한다

 

 

 

Q4 정규화 회귀에 대한 설명으로 틀린 것은?
보기
1. Lasso 회귀는 L1 규제를 사용한다
2. Ridge 회귀는 L2 규제를 사용한다
3. Lasso 회귀는 중요하지 않은 변수의 회귀계수를 0으로 만든다
4. Ridge 회귀는 변수를 선택할 수 있는 회귀분석의 한 방법이다

정규화 회귀 = 별점화 회귀 = 규제화

  • 풀이

f(x) = MSE를 최소하는 값을 구하는 목적함수 

 

1) Lasso 회귀 : L1 규제, 변수선택가능(회귀계수를 0으로)

f(x) = MSE + ||b||(절대값 설정함) -> 과적합 되는 것을 방지하는 방법 중 하나 

 

2) Ridge 회귀 :  L2 규제, 변수선택불가(회귀계수를 0에 가깝게)

f(x) = MSE + b^2(제곱을 함) -> 변수가 증가하는 것에 대해서 페널티 

 

3) Elastic Net : 릿지 + 라쏘 회귀 결합한 모델

 

  • 정답 : 4번

Ridge회귀는 회귀계수를 0에 가깝게 하는 것이지 0으로 만드는 것이 아니기 때문

변수를 선택하는 것은 Lasso회귀임

 

 

Q5 다중회귀분석에서 독립변수간 선형 관계가 존재하여 회귀식이 오류를 범할 수 있는 이것은 무엇인가?
보기
1. 이상치
2. 등분산성
3. 다중공선성
4. 독립

 

  • 풀이

1) 다중공선성이란?

독립변수간(x)간에 상관관계(=선형관계)가 존재하는 것 

x1이 증가하면 x2도 같이 증가 -> 회귀식의 오류를 범할 수 있음 

 

2) 다중공선성 확인 방법

VIF(분산팽창지수) 10이상이면 다중공선성 존재

 

 

-> 다중공선성 있는 변수 제거해야함

 

  • 정답 : 3번

 

후기

 

회귀문제로 5문제를 풀었는데 강의를 한 종류만 계속 본건 아니기에 잊은 개념들이 있었는데

강사님이 매 문자마다 나오는 용어들을 자세히 설명하니까 내용 정리도 다시되고 개념도 기억에 남아서 좋더라구요

 

여기 강의들이 대부분 강의 개념 설명 -> 문제풀이 형태로 되어있어서 

자격증 필기 공부할 때 편한 것 같습니다

 

나머지 강의들도 열심히 들어서 빅데이터 필기 한 방에 따도록 해볼게요! 

그럼 다음 후기로 봐요 

 

반응형