본문 바로가기
메타코드 서포터즈/빅데이터분석기사

[빅데이터분석기사] 필기 4과목 메타코드 강의 | #14 분석모형평가- 분류성능 ROC Curve, 분석모형진단, 교차검증&분석모형 개선(과적합 방지) 개념 정리 및 요약

by goemgoem-i 2024. 3. 29.
반응형

이번에는저번 시간의 분류성능을 나타내는 회귀와 분류를 기준으로한 지표에 이어

 

 

ROC커브와 분석모형진단을 나타내는 지표에 대해 알아보겠습니다

 

해당 개념은 메타코드m에서 제공하는 강의를 참고했다

https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=6&lecture_sub=30&lecture_num=3

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

 

 

ROC커브

 

 

** 0.5 이하이면 분류 능력이 없음을 뜻

**X축은 거짓긍정률 = 1-특이도 = FPR

**Y축은 참긍정률 = 민감도 = 재현율 = TPR

 

 

 

 

 

 

분석모형진단

 

3과목과 겹치는 내용 존재 

 

1. 회귀모형에 대한 진단

-회귀모형 : F검정, P-VALUE가 0.05보다 작아야함 (유의확률<유의수준(0.05))

-회귀계수 : T검정, P-VALUE가 0.05보다 작아야함 (유의확률<유의수준(0.05))

 

2. 잔차에 대한 가정 :

1) 정규성

-앤더슨달링 검정

-샤피로윌크검정

-콜모고로프 스미르노프 검정

-Q-Q plot 검정 : 잔차기 직선의 형태를 띄어야함

 

2) 등분산성

0을 기준을 고르게 퍼진 그래프 선택

3) 독립성

-더빈왓슨 검정 : 통계량이 2에 가까울수록 좋음

 

 

 

교차검증

 

 

1. 홀드아웃 : 계산량이 적고 단순함 / 랜덤하게 학습 평가

2. k-fold 교차검증 : k개의 집단을 나누고 k-1개로 학습 , 1개로 평가

3. lpocv :  전체 n개에서 p개 선택 -> 비용 및 시간이 많이 듦

4. 붓스트램 : 단순랜덤 복원추출 (학습데이터에 한번도 포함되지 않을 확률 36.8%)

 

 

 

 

 

과적합방지

 

1. 편향 : 예측값과 실제값의 차이

2. 분산 : 예측값이 흩어진 정도 -> 분산이 크면 예측값이 예측값의 평균에서 멀리 떨어져있다

3. 모델의 복잡도 

-모델이 복잡함 = 과적합 = 편향감소 = 분산감소

평가데이터는 성능이 떨어지고 학습데이터에 완전히 맞춰짐 -> 즉 예측값과 실제값의 차이가 줄어듦

즉 train에러는 감소하지만 test에러는 증가할 경우 과적합이 발생

-모델 단순함 = 과소적합 = 편향증가 = 분산감소 

 

4. 과적합 방지기법

1) 데이터수 증가

 

2) 가중치 규제 = 규제화

-L1정규화 : 변수선택 가능

-L2정규화 : 변수선택 불가능

 

3) 모델의 복잡도 감소

- 인공신경망의 은닉층 수 감소 , 매개변수의 수 감소 = 수용력 감소, 불필요한 변수 제거

 

4) 드롭아웃

-모델학습시 특정 뉴런을 제거해 가중치가 한쪽을 쏠리는 것을 방지

=>> 앙상블 효과 있음 / 모델을 학습 할 때만 사용, 평가데이터 입력시에는 사용안함!!

 

 

 

반응형