본문 바로가기
메타코드 서포터즈/빅데이터분석기사

[빅데이터분석기사] 필기 3과목 메타코드 강의 | #7 분류모델 - 의사결정나무, 앙상블모형, K-NN 개념 정리 및 요약

by goemgoem-i 2024. 2. 20.
반응형

저번 분류모델인 SVM과 로지스틱회귀분석 개념에 이어서 

 

[빅데이터분석기사필기] 필기 3과목 메타코드 강의 | 분류모델 - 로지스틱휘귀(Logistic Regression)와

저번 시간에는 회귀분서에 대한 개념과 문제풀이를 진행했는데요 [메타코드M 빅데이터 분석 기사 필기] 3과목 회귀분석 관련 문제 풀이 및 정리 회귀분석과 다중회귀분석에 이어서 회귀분석 관

toonovel.tistory.com

 

 

 

이번 개념에서는 의사결정나무, 앙상블모형, K-NN에 대한 개념을 정리해볼까 합니다

https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=5&lecture_sub=17&lecture_num=2

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

 

3과목 분류모델

 

 

지도학습 

1) 분류 

2) 회귀

3) 분류, 회귀 : 의사결정나무 

 

 

의사결정나무 Decision Tree(DT)

 

1) 설명(암기)

회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량

분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피 지수

*대표적인 DT 알고리즘 CART 특징 : 지니지수(분류,Y범주), 분산의 감소량 사용(회귀,Y연속)

 

2)장단점

장점: 의사결정나무 시각화시 직관적 이해 쉬움, 비선형 분석 가능, 비모수적(가정 불필요)

단점: 이상치에 영향을 크게 받음, 성능이 그리 좋지 않음

 

 

 

 

 

앙상블 모형

 

1)정의 

여러가지 모형들을 만든 후에 하나의 최종 결론을 내는 방법 

 

2) 장점

성능이 좋고 일반화 성능 굿

 

3) 대표적인 예 (배깅/부스팅/랜덤포레스트 모두 지도학습 회귀, 분류 둘다 가능)

-배깅 : 붓스트램으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정

* 붓스트램 : 단순 랜덤 복원추출 (샘플에 한번도 선택되지 않는 원데이터가 발생할 수 있음. 약 36.8% 숫자 기억)

 

예시)

데이터 셋이 10개 -> 각 데이터셋 모델링 -> 결과 10개 ->

두 클래스 0과 1이 있다고 할 때 -> 7개 모델에서 0클래스로 3개 모델에서 1클래스로 뜸 -> 그럼 해당 클래스는 0

 

 

-부스팅 : 예측력이 약한 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감 -> 즉 약한 모델을 강한 모델로 발전 시키는 것 

모델링-> 오분류데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순

종류 : GBM, XGBOOST, LIGHTCBM(LGBM)

 

 

-랜덤포레스트 : 다수의 의사결정 나무를 랜덤으로 만들어 그 결과값을 투표해 최종 값 결정

다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종 값 결정

(회귀 : 평균, 분류: 투표), 노이즈에 민감하지 않음

배깅보다 더 많은 무작위성(변수 임의선정하여 트리 생성)을 부여함, 하나는 약하지만 다수는 강하다는 원리

 

예시)

데이터 셋이 10개 -> 각 데이터셋 모델링 -> 결과 10개 -> 각 10개는 전부 다름 ->

두 클래스 0과 1이 있다고 할 때 -> 7개 모델에서 0클래스로 3개 모델에서 1클래스로 뜸 -> 그럼 해당 클래스는 0

 

** 배깅과 랜덤포레스트 차이**

배깅은 붓스트랩만 있음

랜덤포레스트는 붓스트랩 + 변수 

 

 

 

 

 

K-NN(지도학습 / 회귀,분류)

 

장단점: 원리가 간단하지만 K값, 이상치에 따라 성능이 좌지우지됨

키워드: 사례기반 학습(모델링 하지 않음), 게으른 모델 

 

 

반응형