본문 바로가기

확률과 통계22

통계적 추정 #3 - 모평균의 추정과 신뢰도 고등학교 확률과통계 의 마지막 내용이다. 솔직히 여기는 설명이 곤란하다. 문제에서 가정하는것부터 말이 안되기 때문에 암기시킬수밖에 없다. - 모평균의 추정이란 무엇인가 - 한국사람의 평균 키를 조사하고 싶으면 5천만명이 넘는사람을 전부 조사할순 없으니 적당히 표본으로 몇명 뽑아서 조사한다고 했었다. 그리고 그렇게 조사된 키의 평균이 곧 표본의 평균이므로 표본평균이라 부른다고 했었다. 이번엔 드디어 이 표본평균으로 진짜 우리가 구하고자 하는 '한국사람의 평균 키' 즉 모평균을 추정해볼 것이다. 왜 구한다는 표현을 쓰지 않고 추정한다 라는 표현을 썼냐면 모평균을 정확히 구하려면 진짜 5천만명의 키를 전부 조사하는수밖에 없다. 즉 표본평균을 가지고 모평균을 추정하는 방법을 이번에 공부하는것 여기서 핵심은 단 .. 2021. 12. 23.
통계적 추정 #2 - 표본평균의 분포와 표준화 - 표본평균의 분포 - 전 시간에 표본평균도 확률변수라고 했다. 그리고 이 표본평균이라는 확률변수의 분포는 모집단이 정규분포를 따른다면 표본평균도 정규분포를 따른다고 했다. 근데 여기서 말하고자 하는건 모집단이 정규분포를 따르지 않아도, 표본평균의 분포는 정규분포를 따를수도 있다. 어떻게 가능하냐면 바로 전 글에서 예로 들었던걸 그대로 가져오겠다. 한국사람의 키의 평균을 조사할것이다. 여기서 표본을 100명으로 잡으면 그 100명의 키의 평균이 표본평균이다. 근데 5천만명중에 100명을 뽑는 경우의 수는 너무 많지 않을까? 5천만보다 말도안되는 수준으로 큰 수가 나오지 않을까? 즉 표본평균의 개수가 5천만보다 아득히 크지 않을까? 따라서 모집단이 정규분포를 따르지 않더라도, 표본평균의 개수가 너무 많으니.. 2021. 12. 20.
통계적 추정 #1 - 표본평균의 평균, 분산, 표준편차 - 개요 : 표본조사의 필요성 - '한국사람의 키의 평균'을 구하고싶으면 현재 한국 인구 5천만명이 넘는 사람의 키를 전부 조사해야한다. 이는 너무 비효율적이며 코로나 백신처럼 국가적인 도움이 없다면 사실상 불가능한 방법이다. 따라서 우리가 할수 있는 방법은 적당히 지나가는 100명정도를 잡아서 키를 조사한다음 그것을 분석하고 그 분석된것을 토대로 전체 평균을 '추정' 하는 방법이다. 즉 '전체 집단'을 조사하기엔 너무 수가 많으니 전체 집단을 조사하는게 아니라 일부를 '추출'해서 그 추출된 '표본'을 조사한다음 이걸로 '추정' 하는것이다. 그래서 이 단원의 이름이 '통계적 추정' 인 것이다. - 여러가지 용어 - 바로 위에서 예로 들었던것을 그대로 가져와보겠다. 조사하고자 하는것 : 한국 사람의 키의 .. 2021. 12. 20.
확률분포 #5 - 정규분포와 이항분포의 관계 여기는 사실상 대부분의 내용이 그냥 그렇게 알려져 있습니다. 증명은 고등학교과정이 아닙니다. 그냥 외우십시오. 하는 식이기 때문에 사실상 암기하는 부분이다. 확통, 특히 통계는 수학치고 암기할게 좀 많다. - 정규분포와 이항분포의 관계 - 주제 자체가 좀 의아할것이다. 이항분포는 '이산확률분포'이고 정규분포는 '연속확률분포'이다. 한 번의 시행에서 사건 A가 일어날 확률을 p라고 하고, 일어나지 않을 확률을 q라고 하겠다. 각각의 시행은 독립시행이고, 이 시행을 n번 반복하면 여기서 사건 A가 일어나는 횟수가 바로 이항분포에서의 확률변수 X이다. 여기까진 복습이다. 근데 이 확률변수 X는 이항분포에서 시행 횟수인 n이 충분히 커지면, 근사적으로 정규분포를 따른다. 증명은 아까도 말했듯 고등수학 수준이 아.. 2021. 12. 17.
확률분포 #4 - 정규분포의 표준화 - 표준화의 필요성 - 정규분포가 뭔지는 알았고 쓰는법도 조금 알았는데 아직 뭔가 부족하다. 왜인지 천천히 설명해보겠다. 지금부터 확률변수 X의 값을 변화시켜보겠다. 우선 위의 정규분포에서 평균이 10, 표준편차가 2 라고 해보자. 즉 X는 정규분포 N(10, 2²) 를 따른다. 여기서 핵심은 X값을 아무리 변화시켜도 m과 σ는 변하지 않는다. 변하는건 σ 앞에 붙어있는 숫자 즉 σ의 계수 뿐이다. 따라서 X값을 나타낼 때 m과 σ를 매번 써주는건 비효율적이다. 평균값에서 얼마나 떨어져있는지만 알면 되는거다. 즉 X가 m+kσ 형태니까 k값만 알면 되는거다. 그니까 k값만 가지고도 X값이 표현되니까 일일이 m, σ 적고있지 말고 간단하게 쓰자 이거다. 따라서 이때 해주는게 '표준화'이다. - 표준화 - .. 2021. 12. 17.
확률분포 #3 - 정규분포의 정의 고등수학 통계학의 본체이다. - 현재까지 배운 확률밀도함수에서의 한계 - 이전의 확률밀도함수 글에 있는 예제문제의 그래프를 그대로 가져온거다. 근데 보통 사회현상에 대해 조사한다음 집계하면 절대 그래프가 저렇게 직선으로 그려지지 않는다. 저 문제에서 직선으로 준 이유는 원래대로 곡선을 그려주면 계산을 못하게되니까 그냥 직선으로 준거다. 즉 우리가 여태 공부한걸로는 사회현상에 대해 통계적으로 분석하는데 한계가 있다. 확률밀도함수가 웬만하면 곡선형태로 나올텐데 우리는 복잡하게생긴 곡선의 정적분을 배우지 않았기 때문이다. - 정규분포의 정의 - 실제로 사회현상에 대해 조사했다고 해보자. 예를 들어 사람의 키를 조사했다고 해보자. 사람의 키의 평균이 170cm라 하면 대충 170cm 근처에 가장 많고 170cm.. 2021. 12. 17.