저번 분류모델인 SVM과 로지스틱회귀분석 개념에 이어서
이번 개념에서는 의사결정나무, 앙상블모형, K-NN에 대한 개념을 정리해볼까 합니다
https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=5&lecture_sub=17&lecture_num=2
3과목 분류모델
지도학습
1) 분류
2) 회귀
3) 분류, 회귀 : 의사결정나무
의사결정나무 Decision Tree(DT)
1) 설명(암기)
회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량
분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피 지수
*대표적인 DT 알고리즘 CART 특징 : 지니지수(분류,Y범주), 분산의 감소량 사용(회귀,Y연속)
2)장단점
장점: 의사결정나무 시각화시 직관적 이해 쉬움, 비선형 분석 가능, 비모수적(가정 불필요)
단점: 이상치에 영향을 크게 받음, 성능이 그리 좋지 않음
앙상블 모형
1)정의
여러가지 모형들을 만든 후에 하나의 최종 결론을 내는 방법
2) 장점
성능이 좋고 일반화 성능 굿
3) 대표적인 예 (배깅/부스팅/랜덤포레스트 모두 지도학습 회귀, 분류 둘다 가능)
-배깅 : 붓스트램으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정
* 붓스트램 : 단순 랜덤 복원추출 (샘플에 한번도 선택되지 않는 원데이터가 발생할 수 있음. 약 36.8% 숫자 기억)
예시)
데이터 셋이 10개 -> 각 데이터셋 모델링 -> 결과 10개 ->
두 클래스 0과 1이 있다고 할 때 -> 7개 모델에서 0클래스로 3개 모델에서 1클래스로 뜸 -> 그럼 해당 클래스는 0
-부스팅 : 예측력이 약한 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감 -> 즉 약한 모델을 강한 모델로 발전 시키는 것
모델링-> 오분류데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순
종류 : GBM, XGBOOST, LIGHTCBM(LGBM)
-랜덤포레스트 : 다수의 의사결정 나무를 랜덤으로 만들어 그 결과값을 투표해 최종 값 결정
다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종 값 결정
(회귀 : 평균, 분류: 투표), 노이즈에 민감하지 않음
배깅보다 더 많은 무작위성(변수 임의선정하여 트리 생성)을 부여함, 하나는 약하지만 다수는 강하다는 원리
예시)
데이터 셋이 10개 -> 각 데이터셋 모델링 -> 결과 10개 -> 각 10개는 전부 다름 ->
두 클래스 0과 1이 있다고 할 때 -> 7개 모델에서 0클래스로 3개 모델에서 1클래스로 뜸 -> 그럼 해당 클래스는 0
** 배깅과 랜덤포레스트 차이**
배깅은 붓스트랩만 있음
랜덤포레스트는 붓스트랩 + 변수
K-NN(지도학습 / 회귀,분류)
장단점: 원리가 간단하지만 K값, 이상치에 따라 성능이 좌지우지됨
키워드: 사례기반 학습(모델링 하지 않음), 게으른 모델
'메타코드 서포터즈 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #9 인공신경망/딥러닝 함수 개념 정리 및 문제풀이 (0) | 2024.03.24 |
---|---|
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #8 분류모델 문제 풀이, Hard voting과 Soft voting 개념 정리 및 요약 (0) | 2024.02.25 |
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #6 분류모델 - 로지스틱휘귀(Logistic Regression)와 SVM 개념 정리 (0) | 2024.02.19 |
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #5 회귀분석 문제풀이 및 정리 (1) | 2024.02.18 |
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #4 다중회귀분석 개념 정리 및 요약 (0) | 2024.02.10 |