본문 바로가기
메타코드 서포터즈/빅데이터분석기사

[빅데이터분석기사] 필기 3과목 메타코드 강의 | #6 분류모델 - 로지스틱휘귀(Logistic Regression)와 SVM 개념 정리

by goemgoem-i 2024. 2. 19.
반응형

저번 시간에는 회귀분서에 대한 개념과 문제풀이를 진행했는데요

 

[메타코드M 빅데이터 분석 기사 필기] 3과목 회귀분석 관련 문제 풀이 및 정리

회귀분석과 다중회귀분석에 이어서 회귀분석 관련 문제를 풀이해볼까 합니다 회귀분석과 다중회귀분석 관련 개념 정리는 아래 링크 참고하세요! https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=5

toonovel.tistory.com

 

 

이번 개념 정리는 로지스틱회귀와 svm입니다

https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=5&lecture_num=2&lecture_sub=16

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

 

3과목 분류 모델

 

지도학습 

1) 회귀 - 선형회귀(예측)

2) 분류(y범주형) - 로지스틱회귀 / 판별분석 / 나이브베이즈  분류

3) 회귀/ 분류 모두 가능 - 의사결정나무 / 랜덤포레스트 / k-nn / svm / 인공신경망 / 앙상블 

 

 

로지스틱 회귀분석( 지도학습 / 분류만 가능)

 

1) 종속변수y가 범주형인 경우 사용 / 이진 분류(0 아니면 1로 분)

2) 시그모이드 함수(s자 곡선) : y가 1일 확률값을 구해줌(0~1사이 값)

-임계값은 보통 p = 0.5 

-확률값이 0.5보다 크면 1로 분류, 그렇지 않으면 0으로 분류 

y : 확률

 

 

SVM 서포트벡터머신(지도학습 / 회귀,분류) 

 

1) 데이터 세트를 분할하기 위한 최상의 초평면을 구함

 

 

2) 특징

선형 데이터 분류 시 커널 함수를 통해 다른 차원(차원증가)으로 맵핑하며 해결성능이 좋으나 하이퍼파라미터(초매개변수) 영향을 많이 받음 => 계산량이 많아서 시간 소요

* 하이퍼파라미터 : 분석가가 특정 파라미터를 조절해주는 것 

* 매개변수 : 모델이 스스로 데이터를 보고 학습해서 변수를 구하는 것

* 커널함수 : 다른 차원으로 맵핑을 하는 함수 / 비선형(=곡선 형태)의 데이터 분류 일 경우에 사용

=>선형 비선형 둘다 분류 가능

 

 

3) 하이퍼파라미터 C값 증가 = 하드마진(타이트하게) = 성능이 높아지면 = 과적합 위험

-> 새로운 데이터가 들어왔을 때 성능이 제대로 안나올 수 있음

반대는 서포트마진(루즈하게) = 성능 낮음 = 과소적합

초평면: 빨간색 선 / 서포트벡터: 하이퍼플래인을 결정하는 포인트 / 마진: 서포트벡터부터 초평면까지의 거리

 

SVM의 목적 : 마진을 (기준으로)최대로 하는 초평면 구하기 

 

 

 

후기

 

 

이번에는 로지스틱회귀 모델과 svm 모델에 대해서 배웠는데요

다음 강의에서는 분류모델의 또 다른 모델인 세가지 모델에 대해서 강의를 들을 예정입니다

그리고 다음 강의가 문제 풀이니까 확실히 개념과 문제 풀이 동시에 잡을 수 있어서 너무 좋네요 

그럼 다음 강의 후기로 돌아올게요

반응형