메타코드M 통계 기초 개념 정리
[모집단, 모수, 표본, 통계량]
모집단 (Poplulation)
- 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합
모수 (Parameter)
- 모집단에 대한 수치적 요약
- 고등학생 1일 평균 온라인 게임 플레이 시간
- 강아지보다 고양이를 좋아하는 성인의 비율
표본 (Sample)
- 모집단을 적절히 대표하는 모집단의 일부
통계량 (Statistic)
- 표본에 대한 수치적 요약
- 고등학생 1000명의 1일 평균 온라인 게임 플레이 시간
- 강아지보다 고양이를 좋아하는 성인의 비율 (1000명)
> 모집단 안에 표본이 있고, 모집단을 설명하는 값은 모수, 표본을 설명하는 값은 통계량
> Sample Statistic 으로 Poplulation Parameter 를 알고자 함.
[자료의 종류]
- 범주형 자료 : 속성의 범주화, 상대적 서열도 표현
- 명목형 자료 : 단순히 속성을 분류하기 위함 (혈액형)
- 순서형 자료 : 상대적인 크기 비교 (만족도, 최종학력, 학점 )
- 양적 자료 : 자료자체가 숫자로 표현됨
- 이산형 자료 : 셀 수 있음 (빈도수 , 불량품의 수), 정수로 표현하는 것
- 연속형 자료 : 셀 수 없음 (길이, 시간), 실수로 표현되는 것이라 생각하자, 예로 키가 172.0 으로 부르지만 172.053212 ... 처럼 이어갈 수 있기 때문이다.
> 자료의 종류에 따라 시각화, 분석 방법도 달라지기 때문에 알아야 함
[통계량 - 중심]
- 최빈값
- 발생 빈도가 가장 높은 값
- 극단값에 영향을 받지 않음
- {1:1, 2:1, 3:100, 4:2, 5:3} 일 때 최빈값은 3이다.
- 위 값에 100이라는 값이 1개 추가로 들어온다고 할 때 최빈값은 여전히 3이다. 따라서 극단값에 영향을 받지 않는다.
- 주로 범주형 자료에 대한 대표값
- 2개 이상 존재가 가능하다.
- 중앙값
- 데이터를 크기 순으로 정렬 후 가장 가운데에 위치하는 값
- 관측값 변화에 민감하지 않는다.
- 극단값에 상대적으로 영향을 받지 않는다.
- 산술평균
- 우리가 일반적으로 알고 있는 평균값
- 모든 자료의 값을 더하여 자료의 수로 나눠준 값
- 모든 값을 반영하므로 극단값에 영향을 받음
- 가중평균
- 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균
- 산술평균과 가중평균의 차이, 100원 짜리 배 2개, 200원 짜리 배 3개를 구매 했을 때
- 산술평균 : 150원 (100+200) / 2
- 가중평균 : 140원 (100*2 + 200*3) / (2+3)
- 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균
- 기하평균
- 자료가 성장률, 증가율, 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량
- 음수가 아닌 자료값만 존재.
- 연간 물가 상승률
> 데이터를 표현하는 중심을 설명한다. 즉 데이터를 대표하는 값이 될 수 있다.
[통계량 - 산포]
- 분산
- 편차 제곱의 합을 자료의 수로 나눠준 값
- 각 값에 평균을 빼준 값을 제곱하여 모두 더해준 후 자료의 수 -1 만큼 나눠준다.
- 편차 제곱의 합을 자료의 수로 나눠준 값
- 표준편차
- 분산을 제곱근한 값
- 분산은 제곱이 되면서 단위가 뻥튀기 되기 때문
[통계량 - 형태]
- 왜도
- 분포의 비대칭도
- 왜도가 양수일 땐 오른쪽으로 꼬리가 김
- Mode < Median < Mean (극단값에 영향을 받는다.)
- 왜도가 0일 땐 산 모양
- 왜도가 양수일 땐 왼쪽으로 꼬리가 김
- Mode > Median > Mean (극단값에 영향을 받는다.)
- 왜도가 양수일 땐 오른쪽으로 꼬리가 김
- 분포의 비대칭도
- 첨도
- 뾰족한 정도
- 표준정규분포의 첨도는 3이 된다.
[통계량 - 상관]
- 상관 (Correlation)
- 확률 변수 X, Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함
- 선형적 관련성을 파악한다.
- 공분산
- 두 변수의 편차의 곲을 더한 값을 자료 수 만큼 나눠준다.
- 상관계수
- 분자가 공분산이고 분모는 X 표준편차, Y 표준편차의 곱
- 공분산을 두 변수의 표준편차의 곱으로 나눈 값
- -1 < r < 1 (-1, 1 포함)
- 두 양적 변수 간의 선형적 연관성의 강도 측정
- 단위가 없다. (다른 단위로 관측한 변수도 관계를 구할 수 있음)
- 절댓값이 1에 가까울 수록 선형적 연관성의 강도가 높다.
[확률과 확률변수의 정의 - 확률 정의]
- 표본공간(S)
- 랜덤한 현상의 모든 가능한 결과의 집합
- 사건
- 표본공간의 부분집합 <- 확률이 이때 정의됨.
- 합사상, A 합 B
- 곱사상, A 교 B
- 여사상, A 여
- 배반사상, A 교 B 가 공집합일 때
- 표본공간의 부분집합 <- 확률이 이때 정의됨.
- Flipping Coin Twice
- 표본공간 S : {HH, HT, TH, TT}
- 사건 A : 동전을 두 번 던지는 시행에서 동전 앞면이 1번만 나올 사건
- A = {HT, TH}
[확률의 정의]
- 확률의 고전적 정의
- 가능한 결과가 N가지이고, 각 결과가 나타날 가능성이 모두 같을 때, 사건 A에 속하는 결과가 m개라면 A의 확률 P(A) = m / N
- 경험적 정의 (상대도수)
- 시행을 무한번 시도했을 때 나오는 확률
- 확률의 공리적 정의
- 표본공간 S에서 임의의 사상 A에 대하여,
- 0 <= P(A) <= 1
- P(S) = 1
- 서로 배반인 사상들에 대해 P(A1 합 A2 합 A3 합 ... ) = P(A1) + P(A2) + ... 이때 P(A)는 사상 A의 확률
- 표본공간 S에서 임의의 사상 A에 대하여,
[확률의 성질]
- P(A 합 B) = P(A) + P(B) - P(A 교 B)
- P(A 여) = 1 - P(A)
- 서로 배반인 사상들에 대해 P(A1 합 A2 합 A3 합 ... ) = P(A1) + P(A2) + ... 이때 P(A)는 사상 A의 확률
- A ⊂ B(B=A 또는 B 안에 A 집합) 이면 P(A) <= P(B)
[조건부 확률]
한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률
(변화된 표본공간에서의 사건 발생 확률)
- B가 일어났을 때 A가 일어날 확률
- P(A|B) = P(A 교 B) / P(B)
- A가 일어났을 때 B가 일어날 확률
- P(B|A) = P(A 교 B) / P(A)
[독립과 종속]
- 독립사건 : 한 사건의 발생이 다른 사건의 발생 확률에 영향을 주지 않음
- 사건 A와 B가 독립이면
- P(A 교 B) = P(A) P(B)
- P(A|B) = P(A)
- P(B|A) = P(B)
- 사건 A와 B가 독립이면
- 종속사건 : 한 사건의 발생이 다른 사건의 발생 확률에 영향을 줌
- P(A 교 B) = P(A|B)P(B) = P(B|A)P(A)
[베이즈 정리]
- 사건 A .. An 이 표본 공간의 S의 분할이고 P(A) > 0, P(B) > 0 일 때,
- P(A|B) = P(B|A) P(A) / P(B)
- P(A) 는 원인의 가능성 ; 사전 확률 (priori)
- P(B|A) 는 원인 A의 결과로서 B가 관측될 확률 (likelihood, 가능도)
- P(A|B) 는 V가 관측된 후에 원인 A의 가능성: 사후 확률
- 사전확률을 사후확률로 전환할 수 있다.
- P(B) 는 정규화 상수라고한다.
- 새로운 표본공간을 정의해줬다.
- P(B|A) P(A) 를 확률로서 만들어 주기 위함.
[확률 변수]
- 확률변수
- 표본공간에서 정의도니 실수값 함수
- 일정확률을 가지고 발생하는 사건에 수치를 부여한 것
- {HH, HT, TH, TT} 일 때 둘 다 앞면일 때 0, 한번 앞면일 때 1, 둘다 뒷면일 때 2
- 위처럼 어떤 사건에 수치를 부여한 것.
- 변수가 어떤 값을 취하는 지가 확률적으로 결정된다.
- 확률 변수의 특징은 확률 분포에서 나온다.
- 확률분포
- 확률변수의 값과 확률을 대응시켜 표, 그래프, 함수로 표현한 것.
확률 분포 예)
x | 0 | 1 | 2 |
p | 1/4 | 1/2 | 1/4 |
[이산 / 연속 확률 변수]
- 이산확률변수
- 이산표본공간에서 정의된 확률변수의 값이 유한 혹은 countably infinite
- 확률질량함수
- 이산확률변수 X의 값 x1, ---, xn의 각 확률을 대응
X | 0 | 1 | 2 |
P(X=x) | 1/4 | 1/2 | 1/4 |
- 연속확률변수
- 특정 구간 내의 모든 값을 취하는 확률변수
- 확률변수의 값이 무한개이며 셀 수 없음
- 확률밀도함수
- 확률변수 X가 어떤 구간 [l, u]의 모든 값을 취하고 이 구간에서의 함수 f(x)
- 확률밀도함수에 해당되는 값들은 확률은 아님
- 누적확률함수를 미분한 것이 확률밀도함수 : 누적확률함수는 어느 부분에서 확률이 큰지 알 수 없다. 그래서 확률밀도함수를 만든 것임.
- 즉 확률밀도함수를 적분하여 확률을 구할 수 있다.
- f(x) ≥ 0, ∫ f(x) dx = 1
- P(a ≤ X ≤ b) = ∫ f(x) dx, 적분 구간은 (a, b)
[기대값]
- 확률변수의 모든 값의 평균
- 이산확률변수
- 확률변수의 값이 x1, x2, .. 고 X = xi일 확률이 f(xi)일 때
- E(X) = ∑ xi * f(xi)
- 연속확률변수
- 확률변수 X가 [l, u] 구간의 모든 값을 취하고 X의 확률밀도함수가 f(x)일 때
- E(X) = ∫ x * f(x) dx
- 기대값의 성질 (a, b는 상수이고, X, Y는 확률변수)
- E(a) = a
- E(aX) = a * E(X)
- E(X ± b) = E(X) ± b
- E(aX ± b) = a * E(X) ± b
- E[c * g(X) + c * g(X)] = c * E[g(X)] + c * E(g(X)]
[확률변수의 분산과 표준편차]
- 분산
- Var(X) = E[(X - u) ^ 2]
- 표준편차
728x90