반응형
이번 강의에서는 분석모형과정에 대해서 공부했다
전시간에 이어서 왜 데이터 분할이 필요한지에 대해서 공부해볼까 한다
이전 강의는 위의 링크 참고!!
데이터분할
목적 : 분석 모델의 일반화 성능을 향상을 위해
- 일반화 성능: 훈련 모델의 실제 사용시 성능
- 과적합 : 학습 데이터를 과하게 평가 데이터 입력시 성능이 떨어지는 것
[Orginal Set]
Training | Testing | |
Training(검증) | Validation(검증) | Testing(평가) |
분할 방식
붓스트랩의 확률에 대한 문제 출제되니 알아두기!!
연습문제
문제1 모델의 과적합 과소적합등을 확인하고 미세조정을 수행할 수 있게 해주는 데이터 셋은?
보기
1. 학습(train)데이터
2. 검증(validation)데이터
3. 평가(text)데이터
학습데이터는 모델을 훈련하는 데이터로 큰 비중 차지
평가데이터 모델학습(훈련)에 사용되지 않고 성능평가에만 사용됨
- 답 : 검증데이터
문제2 데이터 셋을 랜덤하게 train/test 데이터로 나누는 데이터 분할 방법은?
보기
1. 붓스트랩
2.홀드아웃
3. k-fold 교차검증
4. Lpocv
홀드아웃 : 단순 랜덤 분할 방법
k-fold : 세개의 집단으로 나누면 세개로 나눠서 세개의 평균으로 결론남
붓스트랩 : 학습데이터에 한번도 포함되지 않을 확률은 36.8%임
- 답 : 홀드아웃
후기
이번 강의는 데이터 분할에 대해서 배웠습니다
본격적인 데이터 분석을 들어가기 전 꼭 필요한 분할 작업이죠
실제로 train과 test를 어떤 비율로 분할 하느냐에 따라서 정확도 차이도 많이 나더라구요
데이터를 전공해서 어느정도 들어본 적이 있는 용어들이지만
사실 정확한 개념이 잡히지 않은 상태에서 코딩으로 배운거라
데이터 분할에서 이렇게 여럿 데이터 분할 방법이 있는지 몰랐네요,,,
앞에서 각 데이터 분할 방식의 정의에 대해서 설명해주고
이후에 문제 풀이를 하니까 확실히 제가 놓치고 넘어갔던 부분이 보이고,,^
블로그에 정확하게 수정하게 되네요
그럼 다음 강의 후기로 돌아오겠습니다
반응형
'메타코드 서포터즈 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #5 회귀분석 문제풀이 및 정리 (1) | 2024.02.18 |
---|---|
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #4 다중회귀분석 개념 정리 및 요약 (0) | 2024.02.10 |
[빅데이터분석기사] 필기 3과목 메타코드 강의 | #3 회귀분석설명 개념 정리 및 요약 (1) | 2024.02.09 |
[빅데이터분석기사]필기 3과목 메타코드 강의 | #1 분석 모형 설계 강의 정리 및 후기 (0) | 2024.01.21 |
[빅데이터분석기사] 빅데이터분석기사 필기 데이터 자격증 강의 추천 및 후기 (3) | 2024.01.07 |