이번에는저번 시간의 분류성능을 나타내는 회귀와 분류를 기준으로한 지표에 이어
ROC커브와 분석모형진단을 나타내는 지표에 대해 알아보겠습니다
해당 개념은 메타코드m에서 제공하는 강의를 참고했다
https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=6&lecture_sub=30&lecture_num=3
ROC커브
** 0.5 이하이면 분류 능력이 없음을 뜻
**X축은 거짓긍정률 = 1-특이도 = FPR
**Y축은 참긍정률 = 민감도 = 재현율 = TPR
분석모형진단
3과목과 겹치는 내용 존재
1. 회귀모형에 대한 진단
-회귀모형 : F검정, P-VALUE가 0.05보다 작아야함 (유의확률<유의수준(0.05))
-회귀계수 : T검정, P-VALUE가 0.05보다 작아야함 (유의확률<유의수준(0.05))
2. 잔차에 대한 가정 :
1) 정규성
-앤더슨달링 검정
-샤피로윌크검정
-콜모고로프 스미르노프 검정
-Q-Q plot 검정 : 잔차기 직선의 형태를 띄어야함
2) 등분산성
3) 독립성
-더빈왓슨 검정 : 통계량이 2에 가까울수록 좋음
교차검증
1. 홀드아웃 : 계산량이 적고 단순함 / 랜덤하게 학습 평가
2. k-fold 교차검증 : k개의 집단을 나누고 k-1개로 학습 , 1개로 평가
3. lpocv : 전체 n개에서 p개 선택 -> 비용 및 시간이 많이 듦
4. 붓스트램 : 단순랜덤 복원추출 (학습데이터에 한번도 포함되지 않을 확률 36.8%)
과적합방지
1. 편향 : 예측값과 실제값의 차이
2. 분산 : 예측값이 흩어진 정도 -> 분산이 크면 예측값이 예측값의 평균에서 멀리 떨어져있다
3. 모델의 복잡도
-모델이 복잡함 = 과적합 = 편향감소 = 분산감소
평가데이터는 성능이 떨어지고 학습데이터에 완전히 맞춰짐 -> 즉 예측값과 실제값의 차이가 줄어듦
즉 train에러는 감소하지만 test에러는 증가할 경우 과적합이 발생
-모델 단순함 = 과소적합 = 편향증가 = 분산감소
4. 과적합 방지기법
1) 데이터수 증가
2) 가중치 규제 = 규제화
-L1정규화 : 변수선택 가능
-L2정규화 : 변수선택 불가능
3) 모델의 복잡도 감소
- 인공신경망의 은닉층 수 감소 , 매개변수의 수 감소 = 수용력 감소, 불필요한 변수 제거
4) 드롭아웃
-모델학습시 특정 뉴런을 제거해 가중치가 한쪽을 쏠리는 것을 방지
=>> 앙상블 효과 있음 / 모델을 학습 할 때만 사용, 평가데이터 입력시에는 사용안함!!
'메타코드 서포터즈 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 필기 4과목 메타코드 강의 | #16 분석결과 해석 및 활용 문제풀이 (0) | 2024.03.30 |
---|---|
[빅데이터분석기사] 필기 4과목 메타코드 강의 | #15 분석모형개선 - 매개변수 최적화, 분석모형 융합 개념 정리 및 문제풀이 (0) | 2024.03.29 |
[빅데이터분석기사] 필기 4과목 메타코드 강의 | #13 분석모형평가 - 회귀 성능, 분류 성능 개념 및 문제풀이 (0) | 2024.03.28 |
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #12 다변량분석/시계열 분석, 비모수 통계 개념 정리 및 문제풀이 (0) | 2024.03.26 |
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #11 연관분석 개념 정리 및 문제 풀이 (0) | 2024.03.26 |