본문 바로가기
메타코드 서포터즈/빅데이터분석기사

[빅데이터분석기사] 필기 2과목 메타코드 강의 | #19 확률변수/이산확률분포/베르누이 시행, 포아송분포/정규분포/균일분포/표본분포, 중심극한정리/추정 개념 정리 및 요약

by goemgoem-i 2024. 4. 1.
반응형

이번에는 저번 확률변수와 이산확률분포 그리고 연속확률변수를 바탕으로

각각의 분포 종류를 알아보고 계산 방식을 공부해보겠다

 

참고한 강의내용 및 자료는 아래 링크 클릭!!

https://mcode.co.kr/mypage/lecture_view?wm_id=993&lecture_id=8&lecture_num=4&lecture_sub=45

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

 

 

 

이산확률분포

 

  • 베르누이 확률분포, 이항분포, 포아송분포, 초기하분포, 음이항분포, 다항분포 
  • -> 나만의 암기법이지만,,, 항,송 등 o이 받침인 것들은 이산확률분포!!(연속의 정규만 제외로 알고 있기)

 

1) 베르누이 확률분포

-각 실험에서 발생 가능한 경우의 수 2가지 

-각 실험이 독립적으로 수행

-모든 실험에서 결과의 확률이 동일 

 

문제1 동전이 앞면이 나올 확률이 1/2 일 때 앞면이 나올 기댓값과 분산을 구하시오

 

기댓값 : 1/2

분산 : 1/2 * 1/2

 

2) 이항분포

-성공할 확률이 p인 베르누이 시행을 n번 반복했을 때 성공횟수의 분포

 

문제2 자동차 부품을 생산하는 공정의 불량품을 20%라고 하자.
100개를 생산했을 때의 불량품 수의 기댓값과 분산을 구하시오

 

기댓값 : n * p = 100 * 0.2 = 20

분산 : n * p * (1-p) = 100 * 0.2 * 0.8 = 16

 

3) 포아송분포

-단위시간/공간 내 발생하는 사건의 횟수를 확률변수x라고 할 때 발생빈도가 낮은 사건에 대한 것

 

 

 

 

연속확률분포

 

  • 정규분포, 표준정규분포, 균일분포, t-분포, x^2-분포, f-분포, 감마분포, 지수분포

1) 정규분포

-가우스분포라고도 부름

-종 모양의 좌우대칭

-평균값, 최빈값, 중앙값이 같음

-첨도 = 3 , 왜도 = 0

-위치는 평균이 모양은 표준편차가 결정

 

2) 표준정규분포

-평균이 0, 분산이 1인 정규분포 => 서로 단위가 다른걸 비교 할 때 이용

 

3) 균일분포

-확률변수가 정의되는 구간에서 확률밀도함수 값이 모두 동일한 확률분포

해당 면적은 "높이 * 밑변 = 1" 이 나와야함 

 

4) t-분포

-(모집단의 분산을 알지 못할 때) 표본평균으로 모집단의 평균 추정할 때

-표준정규분포와 같은 좌우 대칭이지만 표준정규분포보다 긴 꼬리를 가짐

-표본 크기가 30이상이면 정규분포에 근사함

-회귀계수 진단

 

5) 카이제곱분포

-표본분산으로 모분산을 추정할 때 

-적합도 검정 (집단 1개가 특정 분포를 따르는지)

-독립성 검정(두 범주형 변수가 서로 독립인지)

-동일성 검정(두 집단간에 각 범주에 속할 비율이 같은지)

 

6) F분포

-두 정규모집단의 분산을 비교할 때 활용

-회귀분석, 3개 집단 이상의 평균을 비교하는데 활용

-회귀모형 진단

 

 

 

 

 

 

표본분포

 

 

한 모집단에서 일정한 크기로 표본을 뽑아서 각 뽑은 표본에서 통계량(표본특성)을 계산할 때 이 통계량이 이루는 확률분포

-표본의 분포가 아님 / 표본 평균의 분포

 

 

표본평균의 평균은 모집단의 평균과 동일하고표준편차는 모집단의 표준편차 나누기 n을 한 것과 동일하다

 

 

중심극한정리

 

**표본분포를 알아야하는 이유 중심극한 정리 때문

임의의 모집단 평균이 u, 표준편차가 시그마라고 할 때 표본의 크기 n이 충분히 크다면 

 

1) 모집단의 분포와 상관없이(모양에 상관없이) 표본평균의 분포는 N(u, 시그마 제곱 / n) 인 정규분포에 근사함 

2) 모딥단이 정규분포라면 표본평균은 표본의 크기와 상관없이 항상 정규뷴포한다

 

=> 중심극한정리가 중요한 이유!! 표본평균이 정규분포를 따르면 모집단의 모수(모집단의 특성)을 추정할 수 있게 된다

 

반응형