수학

[통계 용어 정리] 메타코드M 통계 기초 개념 총 정리, 진행 중

HHB 2022. 11. 28. 04:46

메타코드M 통계 기초 개념 정리


[모집단, 모수, 표본, 통계량]

모집단 (Poplulation)

- 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합

 

모수 (Parameter)

- 모집단에 대한 수치적 요약

  • 고등학생 1일 평균 온라인 게임 플레이 시간
  • 강아지보다 고양이를 좋아하는 성인의 비율 

표본 (Sample)

- 모집단을 적절히 대표하는 모집단의 일부

 

통계량 (Statistic)

- 표본에 대한 수치적 요약

  • 고등학생 1000명의 1일 평균 온라인 게임 플레이 시간
  • 강아지보다 고양이를 좋아하는 성인의 비율 (1000명)

 

> 모집단 안에 표본이 있고, 모집단을 설명하는 값은 모수, 표본을 설명하는 값은 통계량

> Sample Statistic 으로 Poplulation Parameter 를 알고자 함.


[자료의 종류]

  1. 범주형 자료 : 속성의 범주화, 상대적 서열도 표현
    1. 명목형 자료 : 단순히 속성을 분류하기 위함 (혈액형)
    2. 순서형 자료 : 상대적인 크기 비교 (만족도, 최종학력, 학점 )
  2. 양적 자료 : 자료자체가 숫자로 표현됨 
    1. 이산형 자료 : 셀 수 있음 (빈도수 , 불량품의 수), 정수로 표현하는 것
    2. 연속형 자료 : 셀 수 없음 (길이, 시간), 실수로 표현되는 것이라 생각하자, 예로 키가 172.0 으로 부르지만 172.053212 ... 처럼 이어갈 수 있기 때문이다.

> 자료의 종류에 따라 시각화, 분석 방법도 달라지기 때문에 알아야 함


[통계량 - 중심]

  1. 최빈값
    1. 발생 빈도가 가장 높은 값
    2. 극단값에 영향을 받지 않음
      1. {1:1, 2:1, 3:100, 4:2, 5:3} 일 때 최빈값은 3이다.
      2. 위 값에 100이라는 값이 1개 추가로 들어온다고 할 때 최빈값은 여전히 3이다. 따라서 극단값에 영향을 받지 않는다.
    3. 주로 범주형 자료에 대한 대표값
    4. 2개 이상 존재가 가능하다.
  2. 중앙값
    1. 데이터를 크기 순으로 정렬 후 가장 가운데에 위치하는 값
    2. 관측값 변화에 민감하지 않는다.
    3. 극단값에 상대적으로 영향을 받지 않는다.
  3. 산술평균
    1. 우리가 일반적으로 알고 있는 평균값
    2. 모든 자료의 값을 더하여 자료의 수로 나눠준 값
    3. 모든 값을 반영하므로 극단값에 영향을 받음
  4. 가중평균
    1. 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균
      1. 산술평균과 가중평균의 차이, 100원 짜리 배 2개, 200원 짜리 배 3개를 구매 했을 때
      2. 산술평균 : 150원 (100+200) / 2
      3. 가중평균 : 140원 (100*2 + 200*3) / (2+3)
  5. 기하평균
    1. 자료가 성장률, 증가율, 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량
    2. 음수가 아닌 자료값만 존재.
    3. 연간 물가 상승률

> 데이터를 표현하는 중심을 설명한다. 즉 데이터를 대표하는 값이 될 수 있다.


[통계량 - 산포]

  1. 분산
    1. 편차 제곱의 합자료의 수로 나눠준 값
      1. 각 값에 평균을 빼준 값을 제곱하여 모두 더해준 후 자료의 수 -1 만큼 나눠준다.
  2. 표준편차
    1. 분산을 제곱근한 값
    2. 분산은 제곱이 되면서 단위가 뻥튀기 되기 때문

[통계량 - 형태]

  1. 왜도
    1. 분포의 비대칭도
      1. 왜도가 양수일 땐 오른쪽으로 꼬리가 김
        1. Mode < Median < Mean (극단값에 영향을 받는다.)
      2. 왜도가 0일 땐 산 모양
      3. 왜도가 양수일 땐 왼쪽으로 꼬리가 김
        1. Mode > Median > Mean (극단값에 영향을 받는다.)
  2. 첨도
    1. 뾰족한 정도
    2. 표준정규분포의 첨도는 3이 된다.

[통계량 - 상관]

  1. 상관 (Correlation)
    1. 확률 변수 X, Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함
    2. 선형적 관련성을 파악한다.
  2. 공분산
    1. 두 변수의 편차의 곲을 더한 값을 자료 수 만큼 나눠준다.
  3. 상관계수
    1. 분자가 공분산이고 분모는 X 표준편차, Y 표준편차의 곱
    2. 공분산을 두 변수의 표준편차의 곱으로 나눈 값
    3. -1 < r < 1 (-1, 1 포함)
    4. 두 양적 변수 간의 선형적 연관성의 강도 측정
    5. 단위가 없다. (다른 단위로 관측한 변수도 관계를 구할 수 있음)
    6. 절댓값이 1에 가까울 수록 선형적 연관성의 강도가 높다.

[확률과 확률변수의 정의 - 확률 정의]

  1. 표본공간(S) 
    1. 랜덤한 현상의 모든 가능한 결과의 집합
  2. 사건
    1. 표본공간의 부분집합 <- 확률이 이때 정의됨.
      1. 합사상, A 합 B
      2. 곱사상, A 교 B
      3. 여사상, A 여
      4. 배반사상, A 교 B 가 공집합일 때
  3. Flipping Coin Twice
    1. 표본공간 S : {HH, HT, TH, TT}
    2. 사건 A : 동전을 두 번 던지는 시행에서 동전 앞면이 1번만 나올 사건
      1. A = {HT, TH}

[확률의 정의]

  1. 확률의 고전적 정의
    1. 가능한 결과가 N가지이고, 각 결과가 나타날 가능성이 모두 같을 때, 사건 A에 속하는 결과가 m개라면 A의 확률 P(A) = m / N
  2. 경험적 정의 (상대도수)
    1. 시행을 무한번 시도했을 때 나오는 확률
  3. 확률의 공리적 정의
    1. 표본공간 S에서 임의의 사상 A에 대하여,
      1. 0 <= P(A) <= 1
      2. P(S) = 1
      3. 서로 배반인 사상들에 대해 P(A1 합 A2 합 A3 합 ... ) = P(A1) + P(A2) + ... 이때 P(A)는 사상 A의 확률

[확률의 성질]

  1. P(A 합 B) = P(A) + P(B) - P(A 교 B)
  2. P(A 여) = 1 - P(A)
  3. 서로 배반인 사상들에 대해 P(A1 합 A2 합 A3 합 ... ) = P(A1) + P(A2) + ... 이때 P(A)는 사상 A의 확률
  4. A ⊂ B(B=A 또는 B 안에 A 집합) 이면 P(A) <= P(B)

[조건부 확률]

한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률

(변화된 표본공간에서의 사건 발생 확률)

  1. B가 일어났을 때 A가 일어날 확률
    1. P(A|B) = P(A 교 B) / P(B)
  2. A가 일어났을 때 B가 일어날 확률
    1. P(B|A) = P(A 교 B) / P(A)

[독립과 종속]

  1. 독립사건 : 한 사건의 발생이 다른 사건의 발생 확률에 영향을 주지 않음
    1. 사건 A와 B가 독립이면
      1. P(A 교 B) = P(A) P(B)
      2. P(A|B) = P(A)
      3. P(B|A) = P(B)
  2. 종속사건 : 한 사건의 발생이 다른 사건의 발생 확률에 영향을 줌 
    1. P(A 교 B) = P(A|B)P(B) = P(B|A)P(A)

[베이즈 정리]

  1. 사건 A .. An 이 표본 공간의 S의 분할이고 P(A) > 0, P(B) > 0 일 때,
  2. P(A|B) = P(B|A) P(A) / P(B)
  3. P(A) 는 원인의 가능성 ; 사전 확률 (priori)
  4. P(B|A) 는 원인 A의 결과로서 B가 관측될 확률 (likelihood, 가능도)
  5. P(A|B) 는 V가 관측된 후에 원인 A의 가능성: 사후 확률
  6. 사전확률을 사후확률로 전환할 수 있다.
  7. P(B) 는 정규화 상수라고한다. 
    1. 새로운 표본공간을 정의해줬다.
    2. P(B|A) P(A)  를 확률로서 만들어 주기 위함.

> 추가 학습 : https://datascienceschool.net/02%20mathematics/06.06%20%EB%B2%A0%EC%9D%B4%EC%A6%88%20%EC%A0%95%EB%A6%AC.html


[확률 변수]

  1. 확률변수
    1. 표본공간에서 정의도니 실수값 함수
    2. 일정확률을 가지고 발생하는 사건에 수치를 부여한 것
      1. {HH, HT, TH, TT} 일 때 둘 다 앞면일 때 0, 한번 앞면일 때 1, 둘다 뒷면일 때 2 
      2. 위처럼 어떤 사건에 수치를 부여한 것.
    3. 변수가 어떤 값을 취하는 지가 확률적으로 결정된다.
    4. 확률 변수의 특징은 확률 분포에서 나온다.
  2. 확률분포
    1. 확률변수의 값과 확률을 대응시켜 표, 그래프, 함수로 표현한 것.

확률 분포 예)

x 0 1 2
p 1/4 1/2 1/4

 


[이산 / 연속 확률 변수]

  1. 이산확률변수
    • 이산표본공간에서 정의된 확률변수의 값이 유한 혹은 countably infinite
    • 확률질량함수
      • 이산확률변수 X의 값 x1, ---, xn의 각 확률을 대응
X 0 1 2
P(X=x) 1/4 1/2 1/4
  1. 연속확률변수
    • 특정 구간 내의 모든 값을 취하는 확률변수
    • 확률변수의 값이 무한개이며 셀 수 없음
    • 확률밀도함수
      • 확률변수 X가 어떤 구간 [l, u]의 모든 값을 취하고 이 구간에서의 함수 f(x)
      • 확률밀도함수에 해당되는 값들은 확률은 아님
        • 누적확률함수를 미분한 것이 확률밀도함수 : 누적확률함수는 어느 부분에서 확률이 큰지 알 수 없다. 그래서 확률밀도함수를 만든 것임.
        • 즉 확률밀도함수를 적분하여 확률을 구할 수 있다. 
      • f(x) ≥ 0, ∫ f(x) dx = 1
      • P(a ≤ X ≤ b) = ∫ f(x) dx, 적분 구간은 (a, b) 

[기대값]

  • 확률변수의 모든 값의 평균
  1. 이산확률변수
    1. 확률변수의 값이 x1, x2, .. 고 X = xi일 확률이 f(xi)일 때
    2. E(X) = ∑ xi * f(xi)
  2. 연속확률변수
    1. 확률변수 X가 [l, u] 구간의 모든 값을 취하고 X의 확률밀도함수가 f(x)일 때
    2. E(X) = ∫ x * f(x) dx

 

  • 기대값의 성질 (a, b는 상수이고, X, Y는 확률변수)
    • E(a) = a
    • E(aX) = a * E(X)
    • E(X ± b) = E(X) ± b
    • E(aX ± b) = a * E(X) ± b
    • E[c * g(X) + c * g(X)] = c * E[g(X)] + c * E(g(X)]

[확률변수의 분산과 표준편차]

  1. 분산
    1. Var(X) = E[(X - u) ^ 2]
    2.  
  2. 표준편차
728x90
반응형
LIST