본문 바로가기
확률과 통계/III. 통계

확률분포 #3 - 정규분포의 정의

by 1754 2021. 12. 17.

고등수학 통계학의 본체이다.


- 현재까지 배운 확률밀도함수에서의 한계 -

이전의 확률밀도함수 글에 있는 예제문제의 그래프를

그대로 가져온거다.

근데 보통 사회현상에 대해 조사한다음 집계하면

절대 그래프가 저렇게 직선으로 그려지지 않는다.

저 문제에서 직선으로 준 이유는

원래대로 곡선을 그려주면 계산을 못하게되니까 그냥 직선으로 준거다.

즉 우리가 여태 공부한걸로는

사회현상에 대해 통계적으로 분석하는데 한계가 있다.

확률밀도함수가 웬만하면 곡선형태로 나올텐데

우리는 복잡하게생긴 곡선의 정적분을 배우지 않았기 때문이다.

 

 


- 정규분포의 정의 -

 

실제로 사회현상에 대해 조사했다고 해보자.

예를 들어 사람의 키를 조사했다고 해보자.

사람의 키의 평균이 170cm라 하면

대충 170cm 근처에 가장 많고

170cm에서 좀 멀리 떨어진 150cm, 190cm는 잘 안보인다.

따라서 이런 상황에서의 확률밀도함수는

170cm 근처에 가장 많이 몰려있을테니 가장 값이 클것이고

170cm에서 멀어질수록 점점 해당하는 사람 수가 적어질테니 값이 작아지는

그러한 곡선이 그려질것이다.

그래서 이 곡선을 어떻게 다룰거냐면

여전히 우리는 복잡한 곡선을 정적분할줄 모르니까

'특별한' 상황만을 다룬다.

어떤 상황이냐면

확률밀도함수의 곡선이

공교롭게도 '평균'을 기준으로 '좌우대칭' 인 경우이다.

 

m = 평균

 

그리고 확률밀도함수가 이렇게 생긴것을 '정규분포' 라고 한다.

 

 

연속확률변수 X의 확률밀도함수가

평균값 m을 기준으로 좌우 대칭일때,

X의 확률분포를 '정규분포' 라 하고,

기호로 N(m, σ²) 과 같이 나타낸다.

이때, m과 σ는 각각 X의 평균과 표준편차이고,

이럴때 확률변수 X는 정규분포 N(m, σ²) 을 따른다고 표현한다.

 

 

왜 기호 N을 쓰냐면, 정규분포가 영어로 Normal Distribution 이다.

그리고 이 정규분포를 m과 σ² 로 표현하는건

그냥 약속이다. 약속이라는건 증명이 없다는것이다.

평균과 산포도를 가지고 분석하겠다는것이다.

 

더 엄밀한 설명이 가능하긴 하나, 그렇게 할 필요가 없다.

왜냐면 정규분포에서의 확률밀도함수 자체가

고등수학에서 다룰수 없는 수준이기 때문이다.

정규분포에서의 확률밀도함수를 보여주겠다.

어차피 문제에서는 그냥

확률변수 X가 정규분포를 따른다. 라고 하니까 이런건 아예 몰라도 된다.

문제에 그런 문구가 나오면

'확률밀도함수가 평균값을 기준으로 좌우대칭이구나' 라는것만 떠올릴수 있으면 된다.

 


- 정규분포곡선의 성질 -

 

1. 정규분포는 확률밀도함수이기 때문에

그래프가 x축과 이루는 총 면적은 1이다.

 

2. 정규분포는 평균을 기준으로 좌우대칭이다.

우선 정규분포곡선의 첫번째 성질에 의해

위 식이 성립할것이다.

평균 이하인것의 확률과 평균 이상인것의 확률을 전부 더하면 1이다.

근데 좌우대칭이므로

평균 이하인것의 확률과 평균 이상인것의 확률은 서로 같다.

따라서 평균 이하인것의 확률과 평균 이상인것의 확률

각각 1의 절반인 0.5 이다.

근데 여기서 이해가 안되는 부분이 있을수 있는데

이 식을 보면 P(X=m) 을 두번 더하지 않았나?

그러면 P(X=m)을 한번 빼줘야하는거 아닌가? 하는 물음이 있을수 있다.

그럴 필요가 없다. 정확히는 빼나 안빼나 값이 똑같다.

P(X=m)은 무조건 0이기 때문이다.

왜냐면 확률밀도함수가 어떻게 곡선 형태로 그려졌는지를

연속확률변수의 정의부터 되새겨보자.

a) 확률변수가 연속이라 하나하나 적을수 없기때문에

확률변수의 범위로 나눠서 적었다.

b) 그런다음 그 범위 내에 있는 사람수(도수) 를 이용해서

그래프를 그렸고 이를 확률밀도함수라고 했다.

c) 근데 여기서 이 확률변수의 범위를 나눌때 각각의 범위의 길이를 아주 작게하면

범위의 길이가 곧 확률밀도함수에서의 직사각형의 가로 길이인데

각각의 범위에서의 직사각형이 결국은 가로의 길이가 없는 선분처럼 될것이고

그 수많은 선분이 모여서 결국 곡선모양을 이룬것이다.

 

확률밀도함수에서의 확률 = 직사각형의 가로길이 × 확률밀도함수의 함숫값

근데 여기서 직사각형의 가로길이가 사실상 0이기 때문에

P(X=m)은 무조건 0이다.

사람이 아무리 많다고 한들

아주 정확히 키가 딱 170.0000cm인 사람은 사실상 없을거아닌가?

같은 논리로 P(X=m) 뿐만이 아니라 P(X=160) 따위도 전부 0이다.

즉 확률밀도함수의 한 점에서의 확률은 0이다.

 

 

3. 정규분포의 확률밀도함수가 좌우 대칭이기 때문에

아래 식이 성립한다.

이를 그림으로 표현하면

녹색부분과 파란색부분의 넓이가 같다.

둘다 평균에서 σ만큼 떨어진곳까지의 확률을 나타내는 값이기 때문이다.

 

 

나머지도 조금 있는데

사실 이 두가지만 기억하면 전부 여기서 응용할수 있다.

' X축과 이루는 면적은 1 '

' m을 기준으로 좌우대칭 '

 


- 예제 -

 

확률변수 X가 평균이 10이고, 표준편차가 3인 정규분포를 따른다.

 

1 ) 이를 기호로 표현해보시오.

2 ) P( X≥10 ) 의 값은?

3 ) P( X≥13 ) = 0.1 일 때, P( 7≤X≤13 ) 의 값은?

 

1번 정답 및 풀이 보기

평균이 10이고, 표준편차가 3인 정규분포 이므로

답은 N(10, 3²)

N(10, 9) 로 표현하면 안되나요? 할수 있는데

틀린것은 아니나, 정규분포는 표준편차를 가지고 분석하기때문에

표준편차가 잘보이도록 9대신 3² 로 표현해주는게 좋다.

2번 정답 및 풀이 보기

평균이 10이고 정규분포이므로

P( X≥10 )는 전체의 절반

따라서 답은 0.5

3번 정답 및 풀이 보기

P( X≥13 ) = P( X≥10+3 ) = P( X≥m+σ )

P( X≥m+σ ) = 0.1 이다.

그리고 P( 7≤X≤13 ) = P( m-σ≤X≤m+σ )이고

정규분포라 좌우대칭이므로

P( m-σ≤X≤m+σ ) = 2 × P( X≤m+σ )

P( X≤m+σ ) = 0.5 - P( X≥m+σ ) = 0.4

따라서 답은 0.8

 


 

아래는 A집단과 B집단에 대해 조사한 자료를

확률밀도함수로 표현한 그래프이다.

A집단과 B집단의 평균의 대소관계,

A집단과 B집단의 표준편차의 대소관계를 비교하시오.

 

정답 및 풀이 보기

확률밀도함수의 값이 가장 큰곳이 바로 평균지점이다.

따라서 평균값은 A > B

 

표준편차는 산포도이다.

즉 표준편차가 클수록 더 넓게 펴진다.

더 넓게 펴진건 B이다.

따라서 표준편차는 B > A