본문 바로가기
메타코드 서포터즈/빅데이터분석기사

[빅데이터분석기사]필기 3과목 메타코드 강의 | #2 데이터분할 강의 정리 및 문제 풀이

by goemgoem-i 2024. 1. 21.
반응형

이번 강의에서는 분석모형과정에 대해서 공부했다

전시간에 이어서 왜 데이터 분할이 필요한지에 대해서 공부해볼까 한다

 

 

[메타코드M 빅데이터분석기사 필기] 3과목 분석 모형 설계 강의 정리 및 후기

안녕하세요 다온다온입니다 이번 강의 후기는 빅분기 3과목 강의에 대한 후기를 가져왔습니다 https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=5&lecture_num=2&lecture_sub=9 메타코드M 빅데이터 , AI 강의

toonovel.tistory.com

이전 강의는 위의 링크 참고!!

 

 

데이터분할


목적 : 분석 모델의 일반화 성능을 향상을 위해

- 일반화 성능: 훈련 모델의 실제 사용시 성능

- 과적합 : 학습 데이터를 과하게 평가 데이터 입력시 성능이 떨어지는 것

 

 

[Orginal Set]

Training  Testing 
Training(검증) Validation(검증) Testing(평가)

 

 

분할 방식

 

 

 

붓스트랩의 확률에 대한 문제 출제되니 알아두기!!

 

 

 

연습문제

 

 

문제1 모델의 과적합 과소적합등을 확인하고 미세조정을 수행할 수 있게 해주는 데이터 셋은?

 

보기
1. 학습(train)데이터
2. 검증(validation)데이터
3. 평가(text)데이터

 

학습데이터는 모델을 훈련하는 데이터로 큰 비중 차지

평가데이터 모델학습(훈련)에 사용되지 않고 성능평가에만 사용됨

  • 답 : 검증데이터

 

문제2  데이터 셋을 랜덤하게 train/test 데이터로 나누는 데이터 분할 방법은?
보기
1. 붓스트랩
2.홀드아웃
3. k-fold 교차검증
4. Lpocv

홀드아웃 : 단순 랜덤 분할 방법

k-fold : 세개의 집단으로 나누면 세개로 나눠서 세개의 평균으로 결론남

붓스트랩 : 학습데이터에 한번도 포함되지 않을 확률은 36.8%임

 

  • 답 : 홀드아웃

 

 

후기


이번 강의는 데이터 분할에 대해서 배웠습니다 

본격적인 데이터 분석을 들어가기 전 꼭 필요한 분할 작업이죠

실제로 train과 test를 어떤 비율로 분할 하느냐에 따라서 정확도 차이도 많이 나더라구요

 


 

데이터를 전공해서 어느정도 들어본 적이 있는 용어들이지만

사실 정확한 개념이 잡히지 않은 상태에서 코딩으로 배운거라

데이터 분할에서 이렇게 여럿 데이터 분할 방법이 있는지 몰랐네요,,,

 

앞에서 각 데이터 분할 방식의 정의에 대해서 설명해주고 

이후에 문제 풀이를 하니까 확실히 제가 놓치고 넘어갔던 부분이 보이고,,^

블로그에 정확하게 수정하게 되네요 

 

그럼 다음 강의 후기로 돌아오겠습니다

반응형