Z-score 표 - z-score pyo

통계에서 관찰의 z 점수(또는 표준 점수)는 모집단 평균의 위나 아래에 있는 표준 편차의 수입니다.

z 점수를 계산하려면 모집단 평균과 모집단 표준 편차를 알아야 합니다. 모집단의 모든 관찰을 측정하는 것이 가능한 경우 임의 샘플을 사용하여 표준 편차를 추정할 수 있습니다.

Z 점수 비주얼리제이션을 만들어 다음과 같은 질문에 대한 답을 구합니다.

  • 특정 값에 미치지 못하는 값의 백분율은 얼마입니까?

  • 예외로 간주할 수 있는 값은 얼마입니까? 예를 들어 IQ 검사에서 상위 5%를 나타내는 점수는 얼마입니까?

  • 한 분포의 다른 분포에 대한 상대 점수는 얼마입니까? 예를 들어 미카엘이 평균적인 남성보다 크고 에밀리가 평균적인 여성보다 큰 경우 각 성별에서 상대적으로 누가 더 큽니까?

일반적인 규칙으로, -1.96보다 작거나 1.96보다 큰 z 점수는 이례적인 관심 사례로 간주됩니다. 즉, 통계적으로 유의미한 이상값입니다.

이 문서에서는 Tableau에서 z 점수를 계산하는 방법을 설명합니다.

  1. Tableau Desktop과 함께 제공되는 Sample - Superstore 데이터 원본에 연결합니다.

  2. 평균 매출을 계산하는 계산된 필드를 만듭니다.

    분석 > 계산된 필드 만들기를 선택하여 계산 편집기를 엽니다. 계산에 Average Sales라는 이름을 지정하고 수식 영역에 다음을 입력하거나 붙여 넣습니다.

    WINDOW_AVG(SUM([Sales]))

  3. 표준 편차를 계산하는 또 다른 계산된 필드를 만듭니다. 계산에 STDEVP Sales라는 이름을 지정하고 수식 영역에 다음을 입력하거나 붙여 넣습니다.

    WINDOW_STDEVP(SUM([Sales]))

  4. Z 점수를 계산하는 계산된 필드를 만듭니다. 계산에 Z-score라는 이름을 지정하고 수식 영역에 다음을 입력하거나 붙여 넣습니다.

    (SUM([Sales]) - [Average Sales]) / [STDEVP Sales]

  5. 데이터 패널에서 Z-Score로 끌어오고, State으로 끌어옵니다.

    열에서 Z-score 필드의 오른쪽에 테이블 계산 아이콘, 즉 작은 삼각형이 있습니다.

    Z-score 표 - z-score pyo

    STDEVP Sales 함수는 테이블 계산 함수인 WINDOW_STDEVP 함수에 기반합니다. Z-Score 함수 역시 정의에 STDEVP Sales를 포함하므로 테이블 계산 함수입니다. 뷰에 테이블 계산 함수를 포함하는 계산된 필드를 사용하는 경우 수동으로 필드에 테이블 계산을 추가하는 것과 같습니다. 필드를 테이블 계산으로 편집할 수 있습니다. 다음에 수행할 작업이 이 작업입니다.

  6. 열에서 Z-score 필드를 클릭하고 다음을 사용하여 계산 > State를 선택합니다.

    이렇게 하면 Z 점수가 주별로 계산됩니다.

  7. 툴바에서 내림차순 정렬 아이콘을 클릭합니다.

    Z-score 표 - z-score pyo

  8. Ctrl 키를 누른 상태로 Z-score 필드를 에서 색상으로 끌어옵니다.

    Ctrl 키를 누른 채 필드를 끌어 현재 구성된 상태로 다른 위치에 복사합니다.

  9. Ctrl 키를 누른 채 Z-score를 열에서 한 번 더 끌어옵니다. 이번에는 필드를 레이블에 놓습니다.

이제 주별로 구분된 z 점수 분포를 얻었습니다. California와 New York 모두 z 점수가 1.96보다 큽니다. 이 사실로부터 California와 New York이 다른 주들의 평균 매출보다 상당히 높은 매출을 올렸다는 것을 알 수 있습니다.

Z-score 표 - z-score pyo

  • Home
  • Delete
  • Suggest
  • Q&A
  • List
  • Changes
  • About

z-score # Find similar titles

  • 2016-04-30 23:02:38 (rev. 6)
  • KyungyunKim

Structured data

CategoryStatistics

정의 #

z-score는 평균값과 얼마나 거리가 먼지 계산해주는 통계적인 예측값이다.

표준화된 수치(standardized score)라고 한다.

[그림1] 정규분포상에서 편차치, 누적백분율등을 보여주는 표

공식 #

x : 개별적으로 갖는 수치

σ : 표준편차

μ: 평균

z-score는 각 X값과 평균값 사이의 거리를 모집단의 표준편차 (σ)로 나누어 준 값이다. 때문에 z-score는 각각의 값이 전체 분포에서 상대적 위치를 나타내게 된다.

z-score가 -값을 갖을수록 그 값은 상대적으로 감소하는 경향성을 띄며, +값을 갖을수록 그 값은 상대적으로 증가하는 경향성을 띈다.

z-score가 |2| 보다 클수록 평균값과의 거리가 충분히 멀다고 본다.

출처 #

https://ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%A0%90%EC%88%98

http://webcache.googleusercontent.com/search?q=cache:mLJ1DTDPRpsJ:kypt.konyang.ac.kr/cmm/fms/FileDown.do%3FatchFileId%3DFILE_000000000101716%26fileSn%3D0+&cd=13&hl=ko&ct=clnk&gl=kr&lr=lang_ko

표준화

  • 필요성: 측정하는 단위가 달라서 원점수별 비교가 어려운 문제가 있음.

    예) A 테스트는 점수가 0점~100점, B 테스트는 점수가 0점~80점 일 때 A 테스트에서 80점과 B 테스트에서 80점을 어떻게 비교할 것인가.

  • 원점수(raw score)를 표준점수(standard score)로 변환함.

z-score (z-점수 또는 표준점수)

  • 어떤 원점수도 z-점수로 변환할 수 있음.
  • z-점수는 평균으로부터 몇 SD 큰지, 작은지 나타냄.
    예: z-점수가 1이면 평균보다 1SD 크다.
  • z-점수가 + 이면 원점수가 평균보다 크다는 것을 의미하고, -이면 원점수가 평균보다 작다는 것을 의미함.
  • 어떤 분포를 가진 점수도 z-점수로 변환할 수 있으며, z-점수로 변환한다고 해서 원점수의 분포가 바뀌지 않음.
  • 정규분포만 z-점수로 변환할 수 있는 것은 아님. 다만, 정규분포에서 z-점수가 유용하게 사용될 수 있음.

z-점수 기본 공식

z=x–μσz = \frac{x – μ}{σ}

표집분포의 원점수를 z-점수로 표준화하기

z=X‾–μσNz = \frac{\overline{X} – μ}{\frac{σ}{\sqrt{N}}}

  • 중심극한정리로 인해 μx‾=μμ_{\overline{x}} = μ, σx‾=σ Nσ_{\overline{x}} = \frac{σ}{\sqrt N}

z-distribution (z-분포)

  • 평균은 0, 표준편차는 1인 정규 분포
  • 특정한 값이 평균으로부터 몇 SD 떨어져 있는지 안다면(즉, z-점수를 안다면) 그 값보다 크거나 작은 값을 얻을 확률을 구할 수 있음.
    Z-score 표 - z-score pyo

<예시>

  • 평균보다 1SD 작은 값보다 작은 값을 얻을 확률은 얼마인가? ➡️ z-점수가 -1인 경우에 그보다 작은 값을 얻을 확률이므로 P = 13.6 + 2.1 + 0.1 = 15.8%

  • 평균보다 1SD 큰 값보다 작은 값을 얻을 확률은 얼마인가? ➡️ z-점수가 1인 경우에 그보다 작은 값을 얻을 확률이므로 P = 34.1 + 34.1 + 13.6 + 2.1 + 0.1 = 84%

z-test(z-검정)

  • z-분포를 이용하여 가설을 검정하는 통계적 방법.
  • 모집단의 평균과 표준편차를 알 수 있어야 함.
  • 표본의 크기가 크거나 (n > 30) 모집단의 정규분포여야 함.
  • 등분산 가정이 충족될 때 사용함. 두 모집단을 비교할 경우 두 모집단의 분산이 같아야 함.

(1) 단일 표본 z-검정 (one sample z-tset)

  • 모집단을 대표하도록 추출된 표본의 평균을 연구자가 이론적 혹은 경험적으로 얻은 특정한 값과 비교하는 통계적 방법.

<예제>
[문제]
백문이불여일타아카데미에서 수년간 파이썬 강의를 통한 파이썬 코딩 평균 점수가 80점이었고 표준편차는 15점이었다. 이번학기에 프로젝트를 활용한 파이썬 수업을 100명의 수강생들에게 실시하였고, 파이썬 코딩 평균 점수는 85점이었다. 새로운 강의 방식에 따른 수강생들의 평균 점수 85점이 80점과 같은지 유의수준 .05에서 검증하라.

[풀이]

  • 귀무가설: 새로운 강의 방식에 의한 파이썬 코딩 평균 점수는 80점과 같다.
    μ=80\mu = 80
  • 대립가설: 새로운 강의 방식에 의한 파이썬 코딩 평균 점수는 80점이 아니다.
    μ≠80\mu ≠ 80

z = 85–8015100\frac{{85} – 80}{\frac{15}{\sqrt{100}}} = 3.33

유의수준 .05에서 기각값은 ± \pm 1.96이다.

새로운 강의 방식에 의한 파이썬 코딩 평균 점수 85점의 z-점수는 3.33이어서 1.96보다 크기 때문에 귀무가설을 기각한다.

따라서 유의수준 .05에서 새로운 강의 방식에 의한 파이썬 코딩 평균 점수는 80점이 아니다.

(2) 독립 표본 z-검정 (independent sample z-tset)

  • 두 모집단의 평균을 비교하기 위해서 각 모집단을 대표하도록 추출된 독립적인 두 표본을 비교하여 두 모집단을 비교하는 통계적 방법.
  • 두 모집단의 분산이 동일하다는 것을 이론적 혹은 경험적 배경을 통해 알고 있어야 함.

z-score 공식

z=(X1‾−X2‾)−(μ1−μ2)σ12n1+σ22n2z = \frac{(\overline{X_{1}} - \overline{X_{2}}) - (\mu_{1} - \mu_{2})}{\sqrt{ \frac{\sigma_{1}^{2}}{n_{1}} + \frac{\sigma_{2}^{2}}{n_{2}}}}

<예제>
[문제]
전국 30세 남녀 각각 100명을 무작위 추출하여 체중을 측정했다. 남성의 체중 평균은 68kg, 여성의 체중 평균은 60kg였다. 연구자는 이론적 배경에 의해 30세 남성 모집단의 체중 표준편차는 10kg이고 여성 모집단의 체중 표준편차는 9kg임을 알고 있다. 30세 성인 남녀의 체중에 차이가 있는지 여부를 유의수준 .05 수준에서 검정하라.

[풀이]

  • 귀무가설: 30세 성인 남녀 체중에는 차이가 없다.
    μ1=μ2\mu_{1} = \mu_{2}
  • 대립가설: 30세 성인 남녀 체중에는 차이가 있다.
    μ1≠μ2\mu_{1} ≠ \mu_{2}

z=(68−60)−(0−0)102100+92100z = \frac{({68} - {60}) - (0 - 0)}{\sqrt{ \frac{10^{2}}{100} + \frac{9^{2}}{100}}} = 5.95

유의수준 .05에서 기각값은 ±\pm 1.96이다.

30세 성인 남녀의 체중 비교를 위한 z-점수는 5.95여서 +1.96보다 크기 때문에 귀무가설이 기각된다.

따라서 유의수준 .05에서 30세 성인 남녀의 체중은 통계적으로 유의미한 차이가 있다.

참고:

  • 현대기초통계학 (성태제 저)
  • https://sphweb.bumc.bu.edu/otlt/MPH-Modules/PH717-QuantCore/PH717-Module6-RandomError/PH717-Module6-RandomError5.html