통계적 혁신기술의 합의기준. 동의 기준 사용

정의 51.값이 일관성이 있는지 판단할 수 있는 기준 엑스 1 , 엑스 2 ,…, xn무작위 변수 엑스분포 함수에 관한 가설을 가지고 호출됩니다. 동의 기준.

동의 기준을 사용하는 아이디어

이 통계 자료를 바탕으로 가설을 테스트해 보겠습니다. N, SV라는 사실로 구성 엑스특정 유통법을 준수합니다. 이 법칙은 분포 함수로 지정될 수 있습니다. 에프(엑스) 또는 분포 밀도의 형태로 나타납니다. 에프(엑스) 또는 일련의 확률로 피 나는. 이 모든 것들은 분포 함수를 형성하기 때문에 에프(엑스)이 가장 일반적이고(DSV와 NSV 모두에 존재함) 다른 것을 결정하면 가설을 세울 것입니다. N, 수량이라는 사실로 구성됨 엑스분포기능을 갖고 있다 에프(엑스).

가설을 수락하거나 거부하려면 N, 수량을 고려해보세요 , 이론적 및 통계적 분포의 발산(편차) 정도를 나타냅니다. 크기 선택할 수 있습니다 다른 방법들 : 1) 이론적 확률의 제곱 편차의 합 피 나는해당 빈도로부터 2) 일부 계수(가중치)가 있는 동일한 제곱의 합, 3) 이론적 분포에서 통계적(경험적) 분포 함수의 최대 편차 에프(엑스).

가치를 보자 어떤 식으로든 선택됨. 분명히 이것은 임의의 변수입니다. 분배의 법칙 확률변수의 분포법칙에 따라 달라짐 엑스, 실험이 수행된 횟수 및 실험 횟수 N. 가설이라면 N그렇다면 수량 분포의 법칙은 다음과 같습니다. 수량 분배의 법칙에 의해 결정됩니다. 엑스(기능 에프(엑스)) 및 숫자 N.

이 분배법칙이 알려져 있다고 가정해 보겠습니다. 이러한 일련의 실험 결과, 선택된 불일치 척도는 다음과 같은 것으로 밝혀졌습니다. 어떤 의미를 갖게 됐어 . 질문: 이것은 무작위적인 이유로 설명될 수 있습니까? 이 불일치도 너무 이는 크고 이론적 분포와 통계적(경험적) 분포 사이에 유의미한 차이가 존재하므로 가설이 부적합함을 나타냅니다. N? 이 질문에 답하기 위해 다음과 같은 가설을 가정합니다. N는 정확하며, 이 가정 하에서 우리는 실험 자료의 불충분한 양과 관련된 임의의 이유로 인해 불일치 측정이 발생할 확률을 계산합니다. 실험적으로 관찰된 값보다 작지 않을 것입니다. 즉, 사건의 확률을 계산합니다: .

이 확률이 작다면 가설은 N그럴듯하지 않아 기각되어야 하지만, 이 확률이 중요하다면 실험 데이터가 가설과 모순되지 않는다고 결론을 내립니다. N.

문제가 발생합니다. 불일치(편차) 측정을 어떻게 선택해야 합니까? ? 그것을 선택하는 몇 가지 방법을 사용하면 수량 분포의 법칙이 밝혀졌습니다. 매우 간단한 속성을 가지고 있으며 충분히 큰 N실질적으로 기능과 독립적 에프(엑스). 수학적 통계에서 합의 기준으로 사용되는 것은 바로 이러한 불일치 측정입니다.

정의 51/.합치 기준은 미지 분포의 가정된 법칙에 대한 가설을 검정하기 위한 기준입니다.

정규 분포에 가까운 정량적 데이터의 경우 다음을 사용합니다. 파라메트릭수학적 기대값, 표준편차 등의 지표를 기반으로 한 방법입니다. 특히, 두 표본에 대한 평균 차이의 신뢰도를 판단하기 위해 스튜던트법(기준)을 사용하고, 세 개 이상의 표본 간의 차이를 판단하기 위해 검정을 실시한다. 에프, 또는 분산 분석. 비정량적 데이터를 다루거나 표본이 너무 작아서 모집단이 정규 분포를 따른다고 확신할 수 없는 경우 다음을 사용합니다. 비모수적방법 - 기준 χ 2정성적 데이터의 경우 (카이제곱) 또는 Pearson, 순서형 데이터의 경우 부호, 순위, Mann-Whitney, Wilcoxon 등의 테스트를 사용합니다.

또한, 통계적 방법의 선택은 평균을 비교하는 표본이 일치하는지 여부에 따라 달라집니다. 독립적인(예를 들어, 두 개의 서로 다른 주제 그룹에서 가져옴) 또는 매달린(즉, 노출 전후 또는 두 가지 다른 노출 후 동일한 피험자 그룹의 결과를 반영합니다.)

pp. 1. 피어슨 테스트(- 카이제곱)

생산되게 해주세요 N무작위 변수 X가 특정 값을 취하는 각각의 독립적인 실험, 즉 무작위 변수에 대한 관찰 샘플이 제공되었습니다. 엑스(일반 인구) 볼륨 N. 이산형 분포에 대한 이론적 및 경험적 분포 함수의 근접성을 확인하는 작업, 즉 실험 데이터가 가설과 일치하는지 확인하는 작업을 고려해 보겠습니다. N 0, 랜덤 변수를 나타냅니다. 엑스유통법이 있다 에프(엑스) 유의 수준에서 α . 이 법칙을 "이론적"이라고 부르자.

가설 검정을 위한 적합도 기준을 얻을 때 측정값을 결정합니다. 추정된(이론적) 분포 함수에서 주어진 표본의 경험적 분포 함수의 편차 에프(엑스).

가장 일반적으로 사용되는 척도는 Pearson이 도입한 척도입니다. 이 조치를 고려해 보겠습니다. 무작위 변수 값 세트를 분할해 보겠습니다. 엑스~에 아르 자형세트 - 그룹 에스 1 , 에스 2 ,…, , 공통점이 없습니다. 실제로 이러한 분할은 ( 아르 자형- 1) 숫자 1 < 2 < … < 씨알-1 . 이 경우 각 간격의 끝 부분은 해당 집합에서 제외되고 왼쪽 부분이 포함됩니다.

에스 1 에스 2 에스 3 …. -1

1 2 3 씨알 -1

허락하다 피 나는, , - SV가 발생할 확률 엑스세트에 속해요 나는(확실히 ). 허락하다 아니 나는, , - 세트에 속한 Observable 중 값(변형)의 개수 나는(경험적 주파수). 그러면 SV 히트의 상대 빈도는 엑스많은 나는~에 N관찰. , .

위의 분할의 경우, 피 나는증분이 있다 에프(엑스) 세트장에서 나는, 증분은 동일한 세트에 있습니다. 실험 결과를 그룹화된 통계 시리즈의 형태로 표에 요약해 보겠습니다.

그룹 경계 상대 빈도
에스 1:엑스 1 – 엑스 2
에스 2: 엑스 2 – 엑스 3
: xrxr +1

이론적 분포 법칙을 알면 각 그룹에 속하는 무작위 변수의 이론적 확률을 찾을 수 있습니다. 아르 자형 1 , 아르 자형 2 , …, 홍보. 이론적 및 경험적(통계적) 분포의 일관성을 확인할 때 이론적 확률 간의 불일치부터 진행하겠습니다. 피 나는그리고 관찰된 빈도.

측정용 이론적 분포 함수와 경험적 분포 함수의 불일치(편차)는 이론적 확률의 제곱 편차의 합을 취합니다. 피 나는특정 "가중치"를 사용하여 취한 해당 주파수에서 c 나는: .

승산 c 나는일반적으로 서로 다른 그룹에 속하는 편차는 유의성이 동일하다고 간주될 수 없기 때문에 도입됩니다. 확률 자체가 다음과 같은 경우 동일한 절대값의 편차는 거의 중요하지 않을 수 있습니다. 피 나는크고, 작으면 매우 눈에 띕니다. 그러므로 당연히 "가중치"는 c 나는확률에 반비례합니다. 이 계수를 선택하는 방법은 무엇입니까?

K. Pearson은 를 넣으면 큰 값이 나온다는 것을 보여주었습니다. N수량 분포의 법칙 매우 간단한 특성을 가집니다. 분포 함수와 실질적으로 독립적입니다. 에프(엑스) 및 실험 횟수 N, 그러나 그룹 수에만 의존함 아르 자형즉, 이 법칙은 증가함에 따라 N소위 카이제곱 분포에 접근합니다. .

이 주제에 대한 추가 자료가 필요하거나 원하는 내용을 찾지 못한 경우 당사 저작물 데이터베이스에서 검색을 사용하는 것이 좋습니다.

받은 자료로 무엇을 할 것인가:

이 자료가 도움이 되었다면 소셜 네트워크 페이지에 저장할 수 있습니다.

이론적 및 경험적 주파수. 정규 분포 확인

변동 분포 계열을 분석할 때, 어떻게 변이 분포가 나타나는지 매우 중요합니다. 경험적 분포기호는 해당 정상. 이를 위해서는 실제 분포의 빈도를 정규 분포의 특징인 이론적인 빈도와 비교해야 합니다. 이는 실제 데이터를 기반으로 정규화된 편차의 함수인 정규 분포 곡선의 이론적 빈도를 계산해야 함을 의미합니다.

즉, 경험적 분포 곡선은 정규 분포 곡선과 정렬되어야 합니다.

규정 준수의 객관적인 특성 이론적 인그리고 경험적 주파수라는 특별한 통계 지표를 사용하여 얻을 수 있습니다. 동의 기준.

합의기준불일치 여부를 판단할 수 있는 기준이라고 합니다. 경험적그리고 이론적 인분포는 무작위이거나 유의미합니다. 즉, 관측 데이터가 제시된 통계 가설에 동의하는지 또는 동의하지 않는지 여부입니다. 제시된 가설로 인해 발생하는 인구 분포를 이론적이라고합니다.

설치가 필요합니다 표준(규칙)은 경험적 분포와 이론적 분포 사이의 불일치가 무작위인지 유의미한지 여부를 판단할 수 있게 해줍니다. 불일치가 밝혀지면 무작위의, 그러면 그들은 관찰 데이터(표본)가 일반 인구의 분포 법칙에 대해 제시된 가설과 일치한다고 믿으며 따라서 가설이 채택됩니다. 불일치가 밝혀지면 중요한이면 관측 데이터가 가설과 일치하지 않아 기각됩니다.

일반적으로 경험적 빈도와 이론적 빈도는 다음과 같은 이유로 다릅니다.

    불일치는 무작위이며 제한된 수의 관찰로 인해 발생합니다.

    불일치는 우연이 아니며 모집단이 정규 분포를 따른다는 통계적 가설이 잘못되었다는 사실로 설명됩니다.

따라서, 동의 기준경험적 계열의 분포 특성에 대한 계열을 정렬할 때 제시된 가설의 정확성을 거부하거나 확인할 수 있도록 합니다.

경험적 주파수관찰한 결과로 얻은 것입니다. 이론적인 주파수공식을 사용하여 계산됩니다.

을 위한 정규분포의 법칙그들은 다음과 같이 찾을 수 있습니다:

    Σf i- 누적된(누적) 경험적 주파수의 합

    h - 인접한 두 옵션 간의 차이

    σ - 표본 표준편차

    t – 정규화(표준화) 편차

    Φ(t) – 정규 분포의 확률 밀도 함수(t의 해당 값에 대한 로컬 라플라스 함수 값 표에서 확인)

적합도 검정에는 여러 가지 적합도 검정이 있으며 그 중 가장 일반적인 것은 카이제곱 검정(Pearson), Kolmogorov 검정, Romanovsky 검정입니다.

Pearson χ 적합도 테스트 2 – 이론적 주파수(f T)와 경험적(f) 주파수 대 이론 주파수 간의 차이의 제곱의 비율의 합으로 표시될 수 있는 주요 주파수 중 하나:

    k는 경험적 분포가 나누어지는 그룹의 수이고,

    f i – i번째 그룹에서 관찰된 특성의 빈도,

    f T – 이론적인 주파수.

χ 2 분포의 경우, 선택된 유의 수준 α 및 자유도 df(또는 ν)에 대한 χ 2 적합도 기준의 임계값을 나타내는 표가 작성되었습니다. 유의 수준 α는 제안된 가설을 잘못 기각할 확률입니다. 올바른 가설이 기각될 확률. R- 통계 학적으로 유의올바른 가설을 받아들인다. 통계에서는 세 가지 유의성 수준이 가장 자주 사용됩니다.

α=0.10, 이후 P=0.90(100건 중 10건)

α=0.05, 이후 P=0.95(100명 중 5명)

α=0.01이면 P=0.99(100개 중 1개) 올바른 가설을 기각할 수 있습니다.

자유도 df는 분포 계열의 그룹 수에서 연결 수를 뺀 값으로 정의됩니다. df = k –z. 연결 수는 이론적 빈도를 계산하는 데 사용되는 경험적 계열의 지표 수로 이해됩니다. 경험적 빈도와 이론적 빈도를 연결하는 지표. 예를 들어 종형 곡선에 맞춰 정렬하면 세 가지 관계가 있습니다. 따라서 다음과 같이 정렬하면 종형 곡선자유도 수는 df =k–3으로 정의됩니다. 유의성을 평가하기 위해 계산된 값을 표 χ 2 표와 비교합니다.

이론적 분포와 경험적 분포가 완전히 일치하면 χ 2 =0이고, 그렇지 않으면 χ 2 >0입니다. χ 2 계산 > χ 2 탭이면 주어진 유의성 수준과 자유도에 대해 불일치의 무의미함(무작위성)에 대한 가설을 기각합니다. χ 2를 계산하면< χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется정규 분포. Pearson의 적합도 검정은 모집단 규모가 충분히 크고(N>50) 각 그룹의 빈도가 5 이상이어야 하는 경우에 사용됩니다.

Kolmogorov 적합도 테스트축적된 경험적 빈도와 이론적 빈도 사이의 최대 불일치를 결정하는 것을 기반으로 합니다.

여기서 D와 d는 각각 경험적 분포와 이론적 분포의 누적 빈도와 누적 빈도 간의 최대 차이입니다. Kolmogorov 통계의 분포표를 사용하여 0에서 1까지 변할 수 있는 확률이 결정됩니다. P(λ) = 1이면 빈도가 완전히 일치하고 P(λ) = 0 - 완전한 불일치가 있습니다. 확률 값 P가 발견된 값 λ와 관련하여 유의미하다면 이론적 분포와 경험적 분포 간의 불일치가 중요하지 않다고, 즉 무작위라고 가정할 수 있습니다. Kolmogorov 기준을 사용하기 위한 주요 조건은 충분히 많은 수의 관측치입니다.

Kolmogorov 적합도 테스트

Kolmogorov 기준(λ)이 다음과 같은 경우에 어떻게 적용되는지 살펴보겠습니다. 정규 분포 가설 테스트일반 인구. 실제 분포를 종형 곡선과 정렬하는 작업은 여러 단계로 구성됩니다.

    실제 주파수와 이론 주파수를 비교합니다.

    실제 데이터를 기반으로 정규화된 편차의 함수인 정규 분포 곡선의 이론적 빈도가 결정됩니다.

    그들은 특성의 분포가 어느 정도 정규에 해당하는지 확인합니다.

테이블의 IV 열의 경우:

MS Excel에서는 정규화된 편차(t)가 NORMALIZATION 함수를 사용하여 계산됩니다. 옵션(스프레드시트 행) 수만큼 사용 가능한 셀 범위를 선택해야 합니다. 선택 항목을 제거하지 않고 NORMALIZE 함수를 호출합니다. 나타나는 대화 상자에서 관찰된 값(X i), 평균(X) 및 표준 편차 Ϭ를 각각 포함하는 다음 셀을 표시합니다. 작업이 완료되어야 합니다. 동시 Ctrl+Shift+Enter를 눌러

표의 V열의 경우:

정규 분포 Φ(t)의 확률 밀도 함수는 정규화된 편차(t)의 해당 값에 대한 로컬 라플라스 함수 값 표에서 찾습니다.

표의 VI열의 경우:

콜모고로프 적합도 검정(λ)모듈을 나누어 결정 최대 차이관측치 수의 제곱근에 의한 경험적 누적 빈도와 이론적 누적 빈도 사이:

일치 기준 λ에 대한 특수 확률표를 사용하여 값 λ = 0.59가 0.88(λ)의 확률에 해당한다고 결정합니다.

경험적 및 이론적 빈도의 분포, 이론적 분포의 확률 밀도

관찰된(경험적) 분포가 이론적 분포와 일치하는지 확인하기 위해 적합도 테스트를 적용할 때 단순 가설 테스트와 복잡한 가설 테스트를 구별해야 합니다.

1-표본 Kolmogorov-Smirnov 정규성 검정은 다음을 기반으로 합니다. 최대 차이표본의 경험적 누적 분포와 추정된(이론적) 누적 분포 사이. Kolmogorov-Smirnov D 통계량이 유의하면 해당 분포가 정규 분포라는 가설은 기각되어야 합니다.

변형 표시기는 연결의 친밀도를 평가하는 데 사용됩니다.

1. 총 분산 유효 속성 - 요인의 누적 영향을 반영합니다.

2. 요인 분산 유효 특성 - 연구 중인 요인의 영향으로 인한 변화만 반영합니다. 엑스:

균등화된 값의 변동을 특성화합니다. yx전체 평균에서.

3. 잔차 분산 결과 특성의 변화를 표시합니다. ~에제외한 다른 모든 것으로부터 엑스요인:

요인과 일반 사이의 관계는 요인과 일반 사이의 연결의 친밀도를 반영합니다. 엑스그리고 유.

결정 지수 – 전체 분산에서 요인 분산의 비율. 이 표현식을 로 표현하면, 아르 자형그것은 될 것이다 상관 지수 .

분산 추가 규칙(=+)에 따라 상관 지수는 다음과 같이 나타낼 수 있습니다. 또는 상관 지수는 모든 형태의 통신에 대한 연결의 친밀도를 평가하는 데 사용됩니다.

선형 연결의 견고성을 측정하는 데 사용됩니다. 선형 상관 계수:

지표 간 관계의 근접성에 대한 질적 평가는 Chaddock 척도를 사용하여 제공됩니다.

조건부 예를 사용하여 쌍 상관 관계의 회귀 상관 분석 사용을 고려해 보겠습니다. 호텔 객실의 연간 평균 점유율과 활동 수익성이 서로 다른 8개 호텔의 작업에 대한 선택적 정보가 있습니다. 회귀 상관 분석 결과, 호텔 객실 점유율 사이에 직접적인 관계가 있는지, 그렇다면 얼마나 가까운지 확인하는 것이 매우 중요합니다.

Npp 충전 용량(%% 단위) x 수익성(%%) x 2 2시에 xy 평준화된(이론적) y x
8,2 7,0 9,3 8,1 9,5 10,5 7,5 6,3 67,24 49,00 86,49 65,61 90,25 110,25 56,25 39,69 492,0 364,0 669,6 526,5 712,5 840,0 420,0 315,0 7,61 6,65 9,05 8,21 9,41 10,01 7,13 6,41
66,4 564,78 4339,6 64,48

선형 쌍 회귀 방정식의 매개변수를 결정해 보겠습니다.

쌍별 회귀 방정식은 다음과 같습니다. 이 방정식에 x의 경험치를 대입하여 이론치 7.61 등을 계산해 보겠습니다.

이제 호텔 점유율과 활동 수익성 사이의 밀접한 관계를 살펴보겠습니다.

분석 결과, 호텔 이용률과 활동 수익성 사이에는 직접적이고 매우 높은 관계가 있는 것으로 나타났습니다.

실제로 경험적 빈도와 이론적인 빈도의 근접성을 평가하는 것이 종종 매우 중요합니다. 이 평가는 근접성 기준을 사용하여 이루어질 수 있습니다. 동의 기준. 이러한 목적으로 가장 자주 사용됩니다 – 피어슨 적합도 테스트 (ʼʼhiʼʼ- 제곱)은 다음 공식으로 계산됩니다.

어디 에프 -경험적 주파수,

이론적인 주파수.

경험적 빈도와 이론적 빈도의 근접성에 대한 평가는 달성 확률에 의해 결정됩니다. 주어진 값 아르 자형( ) 무작위 주파수 편차의 경우. 확률이라면 아르 자형( ) 0과 크게 다르면(0.05 이상) 이론적 빈도와 경험적 빈도의 편차는 무작위로 간주될 수 있습니다. 만약에 아르 자형( )< 0.05이면 편차는 무작위로 간주될 수 없으며 경험적 및 이론적 분포는 근본적으로 서로 다릅니다.

크기 이론적 빈도와 실제 빈도의 편차뿐만 아니라 인구가 분할되는 그룹의 수와 관련하여 임계 값 표에 따라 달라집니다. 경험적 주파수의 다양한 자유도에 대해 계산됩니다(부록). 정규 분포의 경우 자유도의 수는 다음과 같습니다. K=n-3, 어디 N– 그룹 수.P( , 0.05를 크게 초과합니다. 즉, 실제 빈도와 경험적 빈도의 편차는 무작위로 간주될 수 있으며 티켓 판매 자체의 분포는 정규 분포에 가깝습니다.

부록 1

동의 기준 - 개념 및 유형. "동의 기준" 카테고리의 분류 및 특징 2017, 2018.

특정 분포의 성격에 대한 모든 가정은 가설이고 범주형 진술이 아니기 때문에 당연히 소위 적합도 기준을 사용하여 통계 테스트를 거쳐야 합니다.

확립된 분배 법칙에 기초한 합의 기준을 사용하면 이론적 빈도와 경험적 빈도 사이의 불일치가 중요하지 않은 것으로 간주되어야 하는 경우(무작위)와 중요한 경우(비무작위)를 설정할 수 있습니다. 따라서 일치 기준을 사용하면 계열을 정렬할 때 제시된 가설의 정확성을 거부하거나 확인할 수 있습니다.

경험적 계열의 분포의 성격에 대해 질문하고 주어진 경험적 분포에 대해 일부 이론적 분포 법칙으로 표현된 모델을 수용하는 것이 가능한지 답합니다.

동의 기준에는 여러 가지가 있습니다. 가장 일반적으로 사용되는 기준은 Pearson, Romanovsky 및 Kolmogorov입니다. 그들을 살펴보자.

피어슨의 적합도 검정 %2(카이제곱)는 주요 적합도 검정 중 하나입니다. 이 기준은 경험적 분포와 이론적 분포의 빈도 사이의 불일치의 무작위성(유의성)을 평가하기 위해 영국 수학자 Karl Pearson(1857-1936)에 의해 제안되었습니다. 피어슨 기준, 여기서 k

경험적 분포가 나누어지는 그룹의 수;

그룹 I에서 관찰된 특성의 빈도; 가정된 분포로부터 계산된 이론적 빈도. 분포 y)에 대해 선택된 유의 수준 a와 주어진 자유도 V에 대한 적합도 기준 %2의 임계값을 나타내는 표가 작성되었습니다(부록 4 참조).

유의 수준 a - 제안된 가설을 잘못 기각할 확률, 즉 올바른 가설이 기각될 확률. 통계 연구에서는 해결되는 문제의 중요성과 책임에 따라 다음과 같은 세 가지 유의성 수준이 사용됩니다. 1)

a = 0.10, P = 0.90; 2)

a = 0.05, P = 0.95; 삼)

a = 0.01, P = 0.99.

예를 들어, 확률이 0.01이면 100개 중 1개의 경우에 올바른 가설이 기각될 수 있음을 의미합니다. 경제 연구에서는 0.05의 오류 확률이 실질적으로 허용 가능한 것으로 간주됩니다. 100번 중 5번은 올바른 가설이 기각될 수 있습니다.

또한 표에서 결정된 %2 기준도 자유도에 따라 달라집니다. 자유도 V는 분포 계열 k의 그룹 수에서 V와의 연결 수를 뺀 값으로 정의됩니다.

연결 수는 이론적 빈도를 계산하는 데 사용되는 경험적 계열의 지표 수로 이해됩니다. 경험적 및 이론적 연결 지표 / l

어떤 주파수

따라서 정규 분포 곡선을 따라 정렬하는 경우 세 가지 연결이 있습니다.

x ~ x" " SU = a" * x W = U

EMF 이론' EMF TeOr> ^ 1EMF ^ /theor*

따라서 정규 분포 곡선을 따라 정렬하면 자유도는 V = k - 3으로 결정됩니다. 여기서 k는 계열의 그룹 수입니다.

포아송 곡선을 따라 정렬하는 경우 V = k - 2입니다. 왜냐하면 주파수를 구성할 때 두 개의 제한 연결이 사용되기 때문입니다: x, 1tr /

유의성을 평가하기 위해 계산된 값 %2calc를 표로 작성된 값 %2tab과 비교합니다.

이론적 분포와 경험적 분포가 완전히 일치하면 %2 = 0이고, 그렇지 않으면 %2 > 0입니다.

Hrasch > Xtab' T0가 주어진 유의성 수준 a와 자유도 V와 함께라면 불일치의 무의미함(무작위성)에 대한 가설을 기각합니다.

%2acc ^ X2tabL'이면 경험적 계열이 예상 분포의 가설과 잘 일치한다고 결론을 내리고 확률(1 - a)을 사용하면 이론적 빈도와 경험적 빈도 사이의 불일치가 무작위라고 주장할 수 있습니다.

합의 기준?2을 사용하려면 다음 조건이 충족되어야 합니다. 1)

연구 중인 모집단의 규모는 충분히 커야 하며(VI> 50), 각 그룹의 빈도 또는 크기는 5 이상이어야 합니다.

이 조건을 위반하면 먼저 작은 주파수를 결합해야 합니다. 2)

경험적 분포는 무작위 샘플링의 결과로 얻은 데이터로 구성되어야 합니다. 즉, 그들은 독립적이어야 합니다.

경험적 계열의 경우 분포는 빈도 / \ t로 지정됩니다.

그런 다음 y)는 공식을 사용하여 계산되어야 합니다

Romanovsky Kr 기준은 Pearson 기준 %2의 사용을 기반으로 합니다. 이미 찾은 값 %2 및 자유도 v:

%2에 대한 테이블이 없으면 매우 편리합니다.

Kr 3이면 무작위가 아닙니다.

따라서 이론적 분포는 연구 중인 경험적 분포의 모델 역할을 할 수 없습니다.

Kolmogorov X 기준은 축적된 빈도 또는 경험적 분포와 이론적 분포의 빈도 사이의 최대 불일치를 결정하는 것을 기반으로 합니다.

X = -2= 또는 X = , iN

여기서 Dud는 각각 누적 주파수(F - F")와 누적 주파수 사이의 최대 차이입니다.

경험적 및 이론적 분포 계열의 빈도(p - p");

N은 집계된 단위 수입니다.

표 P(k)(부록 6 참조)를 사용하여 X 값을 계산한 후, 이론적 빈도와 경험적 빈도의 편차가 무작위라고 말할 수 있는 확률이 결정됩니다. 확률 P(k)는 0에서 1까지 다양합니다. P(k) = 1이면 주파수가 완전히 일치하고, P(k) = 0이면 완전한 불일치가 있습니다. A가 최대 0.3의 값을 취하면 P(k) = 1입니다.

Kolmogorov 기준을 사용하기 위한 주요 조건은 충분히 많은 수의 관측치입니다.

예. 테이블의 데이터를 사용합니다. 5.17, 정규 분포의 법칙에 따라 해당 지역의 징집병 분포에 대해 제시된 가설이 올바른지 확인하십시오. 합의 기준을 계산하는 데 필요한 값은 표에 나와 있습니다. 5.19.

표 5.19

피어슨 합의 기준 x2 및 Kolmogorov X 높이, cm 분포 계열의 빈도(/n - t")2 t" F F" k- p,\ t t" A 1 2 3 4 5 6 156을 결정하기 위한 값 계산 -160 8 5 1 .8 8 5 3 161-165 17 16 0.1 25 21 4 166-170 42 40 0.1 67 61 6 171-175 54 65 1.9 121 126 5 176-180 73 73 0 194 199 5 181-185 57 57 0 251 256 5 186-190 38 30 2.1 289 286 3 191-195 11 11 0 300 297 3 X 300 297 6.0 먼저 피어슨 기준을 계산해 봅시다.

그런 다음 유의 수준 a = 0.05를 선택하고 자유도 V를 결정합니다. 이 분포에는 8개의 그룹이 있고 연결(모수) 수는 3이므로 V = 8 - 3 = 5입니다. 표 사용 부록 4에서는 a = 0, 05 및 V = 5 Pearson 기준 %2 = 11.07을 찾습니다.

%2calc 이후 Romanovsky 기준을 사용하여 가설을 확인해 보겠습니다.

나는 X2 - V 나는 16.0 - 5 나는 1

kr = ] Г=^ = 1 = --г = 0.3.

Kp Romanovsky 기준은 또한 경험적 빈도와 이론적 빈도 사이의 불일치가 중요하지 않음을 확인합니다.

이제 Kolmogorov 기준 A의 적용을 고려해 보겠습니다. 표에서 볼 수 있듯이. 5.19에서 누적 빈도의 최대 차이는 6입니다. B = 확인!/1- P"\ = 6. 따라서 Kolmogorov 기준은

X = -?= = = 0.35.

부록 6의 표를 사용하여 X = 0.35: P(X) = 0.9997에서 확률 값을 찾습니다. 이는 확률이 1에 가까우면 정규 분포의 가설이 기각되지 않으며 경험적 분포와 이론적 분포 간의 불일치가 무작위라고 말할 수 있음을 의미합니다.

이제 알려진 적합도 기준을 사용하여 제시된 가설의 정확성을 확인한 후 분포 결과를 실제 활동에 사용할 수 있습니다.

예. 테이블의 데이터를 사용합니다. 5.18, 자동차의 결함 수 분포가 포아송 법칙을 따른다는 가설을 테스트합니다.

합의 기준을 결정하는 데 필요한 초기 데이터 및 값 계산이 표에 나와 있습니다. 5.20.

%2의 값을 계산해 보겠습니다: 2

다파쉬^/9

(표 5.20 참조) xX테이블 = 9>49

(부록 4 참조)

%2calc 따라서, 포아송의 법칙에 따른 자동차 결함 수 분포에 대한 가설은 기각되지 않습니다.

무작위성을 확인하고 이상치 관찰을 평가하는 기준 문헌 소개 실험 데이터의 통계 분석 실행에서 주요 관심은 특정 통계 자체의 계산이 아니라 이러한 유형의 질문에 대한 답변입니다. 따라서 제안된 통계 가설을 테스트하기 위해 많은 기준이 개발되었습니다. 통계적 가설을 테스트하기 위한 모든 기준은 두 가지로 나뉩니다. 대규모 그룹: 파라메트릭 및 비파라메트릭.


소셜 네트워크에서 작업을 공유하세요

이 작품이 당신에게 적합하지 않다면 페이지 하단에 유사한 작품 목록이 있습니다. 검색버튼을 이용해도 됩니다


시험

동의 기준 사용

소개

문학

소개

실험 데이터의 통계 분석 실행에서 주요 관심은 특정 통계 자체의 계산이 아니라 이러한 유형의 질문에 대한 답변입니다. 모집단 평균이 실제로 특정 숫자와 같나요? 상관 계수가 0과 크게 다른가요? 두 표본의 분산이 동일한가요? 그리고 특정 연구 문제에 따라 그러한 질문이 많이 발생할 수 있습니다. 따라서 제안된 통계 가설을 테스트하기 위해 많은 기준이 개발되었습니다. 우리는 가장 일반적인 것 중 일부를 고려할 것입니다. 이는 주로 평균, 분산, 상관 계수 및 풍부도 분포와 관련됩니다.

통계적 가설을 테스트하기 위한 모든 기준은 모수적 및 비모수적이라는 두 가지 큰 그룹으로 나뉩니다. 모수적 테스트는 표본 데이터가 알려진 분포를 가진 모집단에서 추출되었다는 가정을 기반으로 하며 주요 작업은 이 분포의 모수를 추정하는 것입니다. 비모수적 테스트에는 분포가 연속적이라는 가정 외에 분포의 특성에 대한 어떠한 가정도 필요하지 않습니다.

먼저 매개변수 기준을 살펴보겠습니다. 테스트 시퀀스에는 귀무가설과 대립가설의 공식화, 가정의 공식화, 테스트에 사용된 샘플 통계의 결정, 테스트 중인 통계의 샘플 분포 구성, 선택한 기준에 대한 임계 영역 결정 및 샘플 통계에 대한 신뢰 구간 구성.

1 평균의 적합도 기준

테스트할 가설을 모집단 매개변수로 설정합니다. 예를 들어 다음과 같은 상황에서 이러한 확인이 필요할 수 있습니다. 광범위한 연구를 바탕으로 어떤 고정된 위치의 퇴적물에 있는 연체동물 화석 껍질의 직경이 확립되었다고 가정해 보겠습니다. 또한 다른 장소에서 발견된 특정 수의 껍질을 마음대로 사용할 수 있고 특정 장소가 껍질의 직경에 영향을 미치지 않는다고 가정합니다. 한때 새로운 장소에 살았던 전체 연체동물 개체군에 대한 껍질 직경의 평균 값은 첫 번째 서식지에서 이러한 유형의 연체동물을 연구할 때 이전에 얻은 알려진 값과 동일합니다.

이 경우 알려진 값같다면 귀무가설과 대립가설은 다음과 같이 작성된다. 고려 중인 모집단의 변수 x가 정규분포를 가지며 모집단의 분산은 알 수 없다고 가정하자.

통계를 사용하여 가설을 테스트하겠습니다.

, (1)
표본 표준편차는 어디에 있습니까?

만약 참이라면 식 (1)의 t는 자유도가 n-1인 스튜던트 t-분포를 갖는 것으로 나타났습니다. 유의 수준(올바른 가설을 기각할 확률)을 동일하게 선택하면 이전 장에서 논의한 내용에 따라 검정에 대한 임계값 =0을 결정할 수 있습니다.

이 경우 스튜던트 분포는 대칭이므로 n-1 자유도를 갖는 이 분포 곡선 아래 영역의 (1-) 부분이 점 사이에 포함되며 절대값이 서로 동일합니다. . 따라서 선택한 유의 수준에서 주어진 자유도를 갖는 t-분포에 대해 음수보다 작고 양수 값보다 큰 모든 값이 임계 영역을 구성합니다. 표본 t 값이 이 영역에 속하면 대립 가설이 채택됩니다.

에 대한 신뢰 구간은 이전에 설명한 방법을 사용하여 구성되며 다음 식으로 결정됩니다.

(2)

따라서 우리의 경우 화석 연체동물 껍질의 직경이 18.2mm임을 알려드립니다. 우리는 mm, a = 2.18mm인 새로 발견된 50개의 껍질 샘플을 처분할 수 있었습니다. 확인해 보겠습니다: =18.2 반대

유의 수준 =0.05를 선택하면 임계값입니다. 유의수준=0.05에서는 기각될 수 있다는 결론이 나온다. 따라서 우리의 가상적인 예에서 특정 종의 화석 연체동물 껍질의 직경은 그들이 살았던 장소에 따라 다르다고 (물론 어느 정도 확률로) 주장할 수 있습니다.

t-분포가 대칭이라는 사실로 인해 이 분포의 양의 t 값만 선택한 유의 수준과 자유도에서 제공됩니다. 더욱이, t 값의 오른쪽에 있는 분포 곡선 아래 영역의 점유율뿐만 아니라 동시에 -t 값의 왼쪽에 있는 영역의 비율도 고려됩니다. 이는 대부분의 경우 가설을 테스트할 때 이러한 편차가 더 크거나 작은지 여부에 관계없이 편차 자체의 중요성에 관심이 있기 때문입니다. 우리는 다음을 확인합니다. >a 또는:

이제 우리의 예로 돌아가 보겠습니다. 에 대한 100(1-)% 신뢰 구간은 다음과 같습니다.

18,92,01

이제 두 일반 모집단의 평균을 비교해야 하는 경우를 고려해 보겠습니다. 테스트 중인 가설은 다음과 같습니다: : =0, : 0. 또한 평균과 분산이 있는 정규 분포와 평균과 동일한 분산이 있는 정규 분포가 있다고 가정합니다. 또한, 일반 모집단을 추정하는 표본은 서로 독립적으로 추출되어 각각 일정한 양을 가지고 있다고 가정하고, 표본의 독립성으로부터 더 많은 수를 취하여 평균을 계산하면 다음과 같이 됩니다. 각 쌍에 대한 값이 있으면 이러한 평균 쌍 세트는 완전히 상관 관계가 없습니다.

귀무가설 검정은 통계를 사용하여 수행됩니다.

(3)

여기서 와 는 각각 첫 번째 샘플과 두 번째 샘플에 대한 분산 추정값입니다. (3)은 (1)의 일반화임을 쉽게 알 수 있다.

통계(3)에는 자유도가 있는 스튜던트 t-분포가 있는 것으로 나타났습니다. 와 가 같다면, 즉 == 공식 (3)은 단순화되어 다음과 같은 형식을 갖습니다.

(4)

예를 살펴보겠습니다. 두 계절에 걸쳐 동일한 식물 집단의 줄기 잎을 측정할 때 다음과 같은 결과가 얻어졌다고 가정합니다. 스튜던트 t-검정을 사용하기 위한 조건, 즉 표본을 추출한 모집단의 정규성, 알려지지 않았지만 이러한 모집단에 대한 분산은 동일하고 표본의 독립성이 충족됩니다. 유의수준=0.01로 추정해보자. 우리는

테이블 값 t = 2.58. 따라서 두 계절에 걸쳐 식물 개체군에 대한 줄기 잎 길이의 평균값이 동일하다는 가설은 선택한 유의 수준에서 기각되어야 합니다.

주목! 수학적 통계의 귀무 가설은 평균, 분산 또는 기타 통계에 관계없이 비교된 지표 간에 유의미한 차이가 없다는 가설입니다. 그리고 이 모든 경우에 기준의 경험적(공식으로 계산된) 값이 이론적인(표에서 선택한) 값보다 크면 해당 기준은 거부됩니다. 경험적 값이 표로 표시된 값보다 작으면 해당 값이 허용됩니다.

이 두 모집단의 평균 차이에 대한 신뢰 구간을 구성하기 위해 공식 (3)에서 볼 수 있듯이 스튜던트 테스트가 상대 평균 간의 차이의 중요성을 평가한다는 사실에 주목합시다. 이 차이를 표준오차로 환산합니다. (3)의 분모가 이전에 논의된 관계와 가정을 사용하여 정확히 이 표준 오류를 나타내는지 쉽게 확인할 수 있습니다. 사실 우리는 일반적으로 알고 있는

x와 y가 독립이면 독립이다.

x와 y 대신 표본 값을 취하고 두 모집단의 분산이 동일하다는 가정을 상기하면 다음을 얻습니다.

(5)

분산 추정치는 다음 관계식으로부터 얻을 수 있습니다.

(6)

(표본에서 2개의 양이 추정되므로 자유도가 2로 줄어들기 때문에 로 나눕니다.)

이제 (6)을 (5)에 대입하고 제곱근을 취하면 식 (3)에서 분모를 얻게 됩니다.

이 여담 후에는 ~에 대한 신뢰 구간을 구성하는 것으로 돌아가겠습니다.

우리는

t-검정을 구성하는 데 사용된 가정과 관련하여 몇 가지 설명을 해보겠습니다. 우선, 정규성 가정 위반은 30에 대한 검정의 유의성과 검정력에 미미한 영향을 미치는 것으로 나타났습니다. 표본을 추출한 두 모집단의 분산 동질성 가정 위반은 다음과 같습니다. 또한 중요하지 않지만 표본 크기가 동일한 경우에만 해당됩니다. 두 모집단의 분산이 서로 다른 경우 첫 번째 및 두 번째 유형의 오류 확률은 예상한 것과 크게 다를 것입니다.

이 경우 기준을 사용하여 확인해야 합니다.

(7)

자유도의 수와 함께

. (8)

원칙적으로는 분수로 나타나므로 t-분포표를 사용하는 경우에는 가장 가까운 정수값에 대한 테이블 값을 취하고 보간하여 t에 해당하는 t를 찾아야 합니다. 하나 얻었습니다.

예를 살펴보겠습니다. 호수개구리의 두 아종을 연구할 때 몸 길이와 경골 길이의 비율이 계산되었습니다. 부피 =49 및 =27로 두 개의 샘플을 채취했습니다. 우리가 관심을 갖고 있는 관계의 평균과 분산은 각각 =2.34로 나타났습니다. =2.08; =0.21; =0.35. 이제 공식 (2)를 사용하여 가설을 테스트하면 다음을 얻습니다.

유의 수준 =0.05에서 귀무 가설(표 값 t = 1.995)을 기각하고 두 개구리 아종에 대해 측정된 매개변수의 평균값 사이에 선택된 유의 수준에서 통계적으로 유의미한 차이가 있다고 가정해야 합니다. .

공식 (6)과 (7)을 사용할 때 우리는

이 경우 동일한 유의수준 =0.05에 대해 테이블 ​​값은 t=2.015이고 귀무가설이 채택된다.

이 예는 특정 기준을 도출할 때 채택한 조건을 무시하면 실제로 발생하는 것과 정반대의 결과를 초래할 수 있음을 명확하게 보여줍니다. 물론 이 경우 두 모집단에서 측정된 지표의 분산이 통계적으로 동일하다는 사전 확립된 사실이 없는 상태에서 서로 다른 크기의 샘플을 사용하려면 공식 (7)과 (8)을 사용해야 했습니다. 통계적으로 유의한 차이가 없는 것으로 나타났다.

따라서 특정 기준을 도출할 때 모든 가정을 준수하는지 확인하는 것이 올바른 사용을 위해 절대적으로 필요한 조건임을 다시 한 번 반복하고 싶습니다.

위의 t-검정 수정 모두에서 일정한 요구 사항은 표본이 서로 독립적이어야 한다는 요구 사항이었습니다. 그러나 실제로는 객관적인 이유로 이 요구 사항을 충족할 수 없는 상황이 종종 있습니다. 예를 들어, 일부 지표는 외부 요인 등의 작용 전후에 동일한 동물이나 영토 영역에서 측정됩니다. 그리고 이러한 경우에 우리는 가설을 테스트하는 데 관심이 있을 수 있습니다. 두 표본 모두 동일한 분산을 갖는 정규 모집단에서 추출되었다고 계속 가정하겠습니다.

이 경우 정규분포된 양의 차이도 정규분포를 갖는다는 사실을 활용할 수 있으므로 (1) 형식의 스튜던트 t 테스트를 사용할 수 있습니다. 따라서 n개의 차이는 평균이 0인 정규 분포 모집단의 표본이라는 가설이 테스트됩니다.

i번째 차이를 다음과 같이 나타냅니다.

, (9)
어디

예를 살펴보겠습니다. 자극 작용 전()과 후()의 특정 시간 간격 동안 개별 신경 세포의 자극 수에 대한 데이터를 마음대로 확보해 보겠습니다.

따라서 (9)가 t-분포를 갖는다는 점을 염두에 두고 유의 수준 =0.01을 선택하면 부록의 해당 표에서 n-1=10-1=9도에 대한 t의 임계값을 알 수 있습니다. 자유도는 3.25이다. 이론적 및 경험적 t-통계량 값을 비교하면 자극 전후의 발사 속도 간에 통계적으로 유의미한 차이가 없다는 귀무 가설이 기각되어야 함을 알 수 있습니다. 사용된 자극이 자극의 빈도를 통계적으로 유의하게 변화시킨다는 결론을 내릴 수 있습니다.

실험 연구에서는 위에서 언급한 것처럼 종속 표본이 자주 나타납니다. 그러나 이 사실은 때때로 무시되고 t-검정은 형식 (3)에서 잘못 사용됩니다.

이것의 부적절함은 상관되지 않은 평균과 상관된 평균 사이의 차이에 대한 표준 오차를 고려하면 알 수 있습니다. 첫 번째 경우

그리고 두 번째에는

차이 d의 표준 오차는 다음과 같습니다.

이를 고려하면 (9)의 분모는 다음과 같은 형식을 갖게 됩니다.

이제 식 (4)와 (9)의 분자가 일치한다는 사실에 주목합시다.

따라서 t 값의 차이는 분모에 따라 다릅니다.

따라서 종속 샘플 문제에 공식 (3)을 사용하고 샘플에 양의 상관 관계가 있으면 결과 t 값이 공식 (9)를 사용할 때보다 작아지고 상황이 발생할 수 있습니다. 여기서 귀무가설은 거짓일 때 채택됩니다. 표본 간에 음의 상관관계가 있는 경우 반대 상황이 발생할 수 있습니다. 이 경우 차이점은 실제로는 중요하지 않은 것으로 인식됩니다.

임펄스 활동이 있는 예로 다시 돌아가서 샘플이 관련되어 있다는 사실에 주의하지 않고 공식 (3)을 사용하여 주어진 데이터에 대한 t 값을 계산해 보겠습니다. 자유도가 18이고 유의수준이 0.01인 경우 테이블 값은 t = 2.88이며 언뜻 보기에 적합하지 않은 수식을 사용해도 아무 일도 일어나지 않은 것처럼 보입니다. 주어진 조건. 그리고 이 경우 계산된 t 값은 귀무가설을 기각하게 됩니다. 즉, 이 상황에서는 공식 (9)를 사용하여 얻은 것과 동일한 결론을 얻습니다.

그러나 기존 데이터를 다시 형식화하여 다음과 같은 형태로 제시해보자(2).

이는 동일한 값이며 실험 중 하나에서 얻을 수 있습니다. 두 샘플의 모든 값이 보존되므로 식(3)의 스튜던트 t 검정을 사용하면 이전에 얻은 값 = 3.32가 되며 이미 내린 것과 동일한 결론에 도달합니다.

이제 이 경우에 사용되는 식 (9)를 이용하여 t의 값을 계산해 보자. 선택한 유의 수준과 9자유도에서 t의 임계값은 3.25입니다. 결과적으로 우리는 귀무가설을 기각할 이유가 없으며 이를 받아들인다. 그리고 이 결론은 식 (3)을 사용할 때 도출된 결론과 정반대라는 것이 밝혀졌다.

이 예를 통해 우리는 실험 데이터를 분석할 때 올바른 결론을 얻기 위해 특정 기준을 결정하는 기초가 되는 모든 요구 사항을 엄격하게 준수하는 것이 얼마나 중요한지 다시 한 번 확신했습니다.

학생 테스트의 고려된 수정은 두 샘플의 평균에 관한 가설을 테스트하기 위한 것입니다. 그러나 동시에 k 평균의 동등성에 관한 결론을 도출해야 하는 상황이 발생합니다. 이 경우 특정 통계 절차도 개발되었으며 이는 나중에 분산 분석과 관련된 문제를 논의할 때 논의될 것입니다.

2 분산에 대한 적합도 검정

모집단 분산에 관한 통계적 가설 검정은 평균과 동일한 순서로 수행됩니다. 이 순서를 간단히 기억해 보겠습니다.

1. 귀무가설(비교된 분산 사이에 통계적으로 유의미한 차이가 없음에 대한)이 공식화됩니다.

2. 가설에 포함된 모수를 추정하기 위해 계획된 통계의 표본분포에 대해 몇 가지 가정을 하고 있다.

3. 가설 검정을 위한 유의 수준을 선택합니다.

4. 우리가 관심 있는 통계값을 계산하고 귀무가설의 참 여부에 대한 결정을 내립니다.

이제 모집단의 분산 =a라는 가설을 테스트하는 것부터 시작해 보겠습니다. 에 맞서. 변수 x가 정규 분포를 갖고 크기 n의 표본이 모집단에서 무작위로 추출되었다고 가정하면 통계를 사용하여 귀무 가설을 테스트합니다.

(10)

분산 계산 공식을 기억하여 (10)을 다음과 같이 다시 작성합니다.

. (11)

이 표현에서 분자는 평균에서 정규 분포 값의 편차의 제곱의 합이라는 것이 분명합니다. 이러한 각 편차도 정규 분포를 따릅니다. 따라서 우리에게 알려진 분포에 따르면 통계 (10)과 (11)의 정규 분포 값의 제곱합은 n-1 자유도를 갖는 -분포를 갖습니다.

t-분포의 사용과 유사하게 선택된 유의 수준을 확인할 때 귀무 가설을 받아들일 확률에 해당하는 분포표에서 임계점이 설정됩니다. 선택된 시점에 대한 신뢰 구간은 다음과 같이 구성됩니다.

. (12)

예를 살펴보겠습니다. 광범위한 실험 연구를 바탕으로 특정 지역에서 한 식물종의 알칼로이드 함량 분산이 4.37 기존 단위와 같다고 가정해 보겠습니다. 전문가는 아마도 동일한 지역에서 온 것으로 추정되는 n = 28개의 식물 샘플을 마음대로 사용할 수 있습니다. 분석에 따르면 이 표본 =5.01에 대해 이 분산과 이전에 알려진 분산이 유의 수준 =0.1에서 통계적으로 구별할 수 없는지 확인하는 것이 필요합니다.

공식 (10)에 따르면 우리는

결과 값은 임계값 /2=0.05 및 1--/2=0.95와 비교되어야 합니다. 27 자유도에 대한 부록 표에서 우리는 각각 40.1과 16.2를 얻었으며 이는 귀무 가설이 허용될 수 있음을 의미합니다. 해당 신뢰 구간은 3.37입니다.<<8,35.

표본평균에 대한 가설을 스튜던트 검정을 이용하여 검정하는 것과 달리, 모집단의 정규분포 가정을 위반한 경우 첫 번째, 두 번째 유형의 오류가 크게 변하지 않은 경우, 정규성 조건을 만족하지 않는 경우의 분산에 관한 가설의 경우 만났을 때 오류가 크게 변경되었습니다.

고정된 값에 대한 분산의 동일성에 관해 위에서 고려한 문제는 모집단의 분산이 알려진 경우 상황이 매우 드물기 때문에 관심이 제한적입니다. 훨씬 더 흥미로운 것은 두 모집단의 분산이 동일한지 확인해야 하는 경우입니다. 대안에 대한 가설을 테스트합니다. 크기의 표본은 분산이 있는 일반 모집단에서 무작위로 추출된 것으로 가정됩니다.

귀무 가설을 검정하기 위해 Fisher의 분산 비율 검정이 사용됩니다.

(13)

정규분포 확률변수의 평균과 편차의 제곱합은 분포를 가지므로 (13)의 분자와 분모는 모두 와 각각으로 나누어진 분포값이므로 그 비율은 -1과 를 갖는 F-분포를 갖는다. -1 자유도.

F-분포표가 구성되는 방식은 일반적으로 (13)에서 가장 큰 분산을 분자로 사용하므로 선택된 유의 수준에 해당하는 하나의 임계점만 결정된다는 것이 일반적으로 받아들여집니다.

높이 대 너비 비율의 분산이 0.59 및 0.38인 일반 및 타원형 연못 달팽이 개체군에서 볼륨 =11 및 =28의 두 샘플을 마음대로 사용할 수 있습니다. =0.05의 유의 수준에서 연구 중인 모집단에 대해 이러한 지표의 이러한 분산이 동일하다는 가설을 테스트할 필요가 있습니다. 우리는

문헌에서 스튜던트 검정을 사용하여 평균의 동일성에 대한 가설을 검정하기 전에 분산의 동일성에 대한 가설을 검정해야 한다는 진술을 때때로 찾을 수 있습니다. 잘못된 추천입니다. 게다가, 따르지 않으면 피할 수 있는 실수로 이어질 수도 있습니다.

실제로 Fisher의 검정을 사용하여 등분산 가설을 검정한 결과는 표본이 정규 분포를 따르는 모집단에서 추출되었다는 가정에 크게 좌우됩니다. 동시에, 스튜던트 테스트는 정규성 위반에 둔감하며 동일한 크기의 표본을 얻을 수 있는 경우 등분산 가정도 중요하지 않습니다. n이 같지 않은 경우, 검증을 위해 공식 (7)과 (8)을 사용해야 합니다.

등분산에 대한 가설을 테스트할 때 종속 표본과 관련된 계산에서 일부 기능이 발생합니다. 이 경우 통계는 대안에 대한 가설을 테스트하는 데 사용됩니다.

(14)

귀무가설이 참이면 통계(14)는 자유도가 n-2인 스튜던트 t-분포를 갖습니다.

35개 코팅 샘플의 광택을 측정했을 때 =134.5의 분산도가 얻어졌습니다. 2주 후에 반복 측정한 결과 =199.1로 나타났습니다. 이 경우, 쌍을 이루는 측정값 간의 상관계수는 =0.876으로 나타났습니다. 표본이 종속적이라는 사실을 무시하고 Fisher 테스트를 사용하여 가설을 테스트하면 F=1.48을 얻습니다. 유의 수준 =0.05를 선택하면 =35-1=34 및 =35-1=34 자유도에 대한 F-분포의 임계값이 1.79이므로 귀무 가설이 허용됩니다.

동시에, 이 경우에 적합한 식 (14)를 사용하면 t = 2.35를 얻는 반면, 33 자유도 및 선택된 유의 수준 = 0.05에 대한 t의 임계값은 2.03과 같습니다. 따라서 두 표본의 등분산에 대한 귀무가설은 기각되어야 합니다. 따라서 이 예에서 평균 평등 가설을 테스트하는 경우와 마찬가지로 실험 데이터의 세부 사항을 고려하지 않은 기준을 사용하면 오류가 발생한다는 것이 분명합니다.

권장 문헌에서는 k 분산의 동시 동일성에 대한 가설을 테스트하는 데 사용되는 Bartlett 테스트를 찾을 수 있습니다. 이 기준의 통계를 계산하는 것이 매우 힘들다는 사실 외에도 이 기준의 주요 단점은 표본이 추출되는 모집단의 정규 분포 가정으로부터의 편차에 매우 민감하다는 것입니다. 따라서 이를 사용할 때 표본이 정규 분포를 따르지 않아서가 아니라 분산이 통계적으로 유의미하게 다르기 때문에 귀무 가설이 실제로 기각되었다고 확신할 수 없습니다. 따라서 여러 분산을 비교하는 문제가 발생하면 Fisher 기준이나 그 수정을 사용할 수 있는 문제의 공식화를 찾아야 합니다.

3 주식에 관한 합의의 기준

개체를 두 가지 범주 중 하나로 분류할 수 있는 모집단을 분석해야 하는 경우가 많습니다. 예를 들어, 특정 인구의 성별, 토양에 특정 미량 원소의 존재, 일부 새 종의 알이 어둡거나 밝은 색 등에 따라 다릅니다.

특정 품질을 가진 요소의 비율을 P로 표시합니다. 여기서 P는 전체 개체 중 우리가 관심 있는 품질을 가진 개체의 비율을 나타냅니다.

충분히 큰 인구에서 몫 P가 어떤 숫자 a(0)와 같다는 가설을 테스트해 보겠습니다.

우리의 경우와 같이 이분형(두 개의 그라데이션이 있는) 변수의 경우 P는 정량적으로 측정된 변수 모집단의 평균과 동일한 역할을 합니다. 한편, 분수 P의 표준오차는 다음과 같이 나타낼 수 있다고 이전에 언급한 바 있다.

그렇다면 가설이 참이라면 통계는

, (19)
여기서 p는 표본 P 값이며 단위 정규 분포를 갖습니다. np 또는 (1-p)n 곱 중 작은 값이 5보다 큰 경우 그러한 근사가 유효하다는 점을 바로 주목해야 합니다.

호수 개구리 개체수에서 등에 세로 줄무늬가 있는 개체의 비율이 62% 또는 0.62라는 것을 문헌을 통해 알 수 있습니다. 우리는 125(n)명의 개인 샘플을 가지고 있었고 그 중 93(f)는 뒷면에 세로 줄무늬가 있었습니다. 표본을 채취한 모집단에서 우리가 관심 있는 특성을 가진 개인의 비율이 알려진 데이터와 일치하는지 알아내는 것이 필요합니다. p=f/n=93/125=0.744, a=0.62, n(1-p)=125(1-0.744)=32>5 및

따라서 유의 수준 = 0.05 및 = 0.01 모두에 대해 귀무 가설은 기각되어야 합니다. = 0.05에 대한 임계값은 1.96이고 = 0.01 - 2.58에 대한 임계값이기 때문입니다.

우리가 관심 있는 속성을 가진 객체의 비율이 각각 이고 두 개의 큰 모집단이 있는 경우 가설을 테스트하는 것이 중요합니다. = 대안:. 테스트를 위해 볼륨이 있는 두 개의 샘플이 무작위로 독립적으로 추출됩니다. 이러한 샘플을 기반으로 통계가 추정되고 결정됩니다.

(20)

여기서 와 는 각각 첫 번째와 두 번째 샘플에서 이 특성을 갖는 객체의 수입니다.

공식 (20)에서 우리가 이전에 접한 것과 동일한 원리가 유도에 사용되었음을 이해할 수 있습니다. 즉, 통계적 가설을 검증하기 위해 관심 지표 간의 차이를 구성하는 표준편차의 개수를 결정하며, 실제로 (+)/(+) 값은 두 지표 모두에서 주어진 특성을 갖는 객체의 비율을 나타냅니다. 동시에 샘플을 채취합니다. 로 표시하면 분모의 두 번째 괄호 안의 표현식(20)은 (1-)을 나타내며 표현식(20)이 귀무 가설을 테스트하기 위한 공식과 동일하다는 것이 분명해집니다.

왜냐하면.

반면에 이는 표준 오류입니다. 따라서 (20)은 다음과 같이 쓸 수 있다.

. (21)

이 통계와 평균에 대한 가설 검정에 사용되는 통계 간의 유일한 차이점은 z가 t-분포가 아닌 단위 정규 분포를 갖는다는 것입니다.

한 그룹의 사람들(=82)에 대한 연구에서 뇌파에 리듬이 있는 사람들의 비율이 0.84 또는 84%임을 보여줍니다. 다른 지역(=51)의 사람들을 대상으로 한 연구에서는 이 비율이 0.78인 것으로 나타났습니다. 유의수준 =0.05의 경우, 표본을 채취한 일반 모집단에서 뇌 알파 활동을 보이는 개인의 비율이 동일한지 확인해야 합니다.

우선, 사용 가능한 실험 데이터를 통해 통계를 사용할 수 있는지 확인하겠습니다(20). 우리는:

z는 =0.05의 임계점이 1.96인 정규 분포를 가지므로 귀무 가설이 채택됩니다.

고려된 기준은 우리가 관심 있는 특성을 가진 개체의 비율을 비교한 표본이 독립적인 경우 유효합니다. 예를 들어 인구가 연속적인 시간 간격으로 고려되는 경우와 같이 이 요구 사항이 충족되지 않으면 동일한 개체가 이러한 간격에서 이러한 특성을 가질 수도 있고 그렇지 않을 수도 있습니다.

관심 있는 속성을 가진 객체의 존재를 1로, 부재를 0으로 표시하겠습니다. 그런 다음 표 3에 도달합니다. 여기서 (a+c)는 첫 번째 샘플에서 일부 속성을 가진 객체의 수입니다. , (a+c)는 두 번째 표본에서 이러한 특성을 갖는 개체의 수이고, n은 검사된 개체의 총 개수입니다. 분명히 이것은 이미 잘 알려진 4개 필드 테이블이며, 계수를 사용하여 관계를 평가합니다.

그런 테이블과 작은 경우 (<10) значений в каждой клетке Р.Фишером было найдено точное распределение для, которое позволяет проверять гипотезу: =. Это распределение имеет довольно сложный вид, и его критические точки приводятся в специальных таблицах. В реальных ситуациях, как правило, значения в каждой клетке больше 10, и было показано, что в этих случаях для проверки нулевой гипотезы можно использовать статистику

(22)
귀무가설이 참이면 자유도가 1인 카이제곱 분포를 갖습니다.

예를 살펴보겠습니다. 연중 다양한 시기에 실시하는 말라리아 예방접종의 효과를 2년에 걸쳐 테스트해 보면, 예방접종의 효과는 연중 시기에 따라 달라지지 않는다는 가설이 테스트됩니다. 우리는

=0.05의 테이블 값은 3.84이고 =0.01의 테이블 값은 6.64입니다. 따라서 이러한 유의 수준 중 어느 것에서든 귀무가설은 기각되어야 하며, 이 가상의 예(그러나 현실과 관련됨)에서는 하반기에 이루어진 베팅이 훨씬 더 효과적이라는 결론을 내릴 수 있습니다.

4필드 테이블에 대한 결합 계수의 자연스러운 일반화는 앞서 언급한 바와 같이 Chuprov의 상호 공액 계수입니다. 이 계수의 정확한 분포는 알려져 있지 않으므로 계산된 값과 선택한 유의수준을 이 분포의 임계점과 비교하여 가설의 타당성을 판단합니다. 자유도는 (r-1)(c-1)식으로 결정됩니다. 여기서 r과 c는 각 특성의 그라데이션 수입니다.

계산식을 기억해 보자

시각 이상이 없는 사람의 오른쪽 눈과 왼쪽 눈의 시력 범위를 연구하여 얻은 데이터가 제시됩니다. 일반적으로 이 범위는 4가지 범주로 나뉘며, 왼쪽 눈과 오른쪽 눈의 시야 범위 간의 관계에 대한 신뢰성에 관심이 있습니다. 먼저, 이중합의 모든 항을 찾아봅시다. 이를 위해 표에 제공된 각 값의 제곱을 선택한 숫자가 속한 행과 열의 합으로 나눕니다. 우리는

이 값을 사용하면 =3303.6 및 T=0.714를 얻습니다.

4 인구 분포를 비교하는 기준

유전학의 시작을 알린 고전적인 완두콩 육종 실험에서 G. Mendel은 식물을 둥근 노란색 씨앗과 주름진 녹색 씨앗과 교배하여 얻은 다양한 유형의 씨앗의 빈도를 관찰했습니다.

이 경우와 이와 유사한 경우에는 표본을 추출한 일반 모집단의 분포 함수가 동일하다는 귀무가설을 검정하는 것이 중요합니다. 이론적 계산을 통해 통계를 사용하여 이러한 문제를 해결할 수 있음이 나타났습니다.

= (23)

이 통계를 사용하는 기준은 K. Pearson이 제안했으며 그의 이름을 딴 것입니다. Pearson 테스트는 연속 분포 또는 이산 분포 여부에 관계없이 그룹화된 데이터에 사용됩니다. (23)에서 k는 그룹화 구간의 수이고, 는 경험적 수이며, 기대 또는 이론적 수(=n)입니다. 귀무가설이 참인 경우 통계(23)는 자유도가 k-1인 분포를 갖습니다.

표에 제공된 데이터의 경우

=0.05 및 =0.01에 대해 자유도가 3개인 분포의 임계점은 각각 7.81 및 11.3과 같습니다. 따라서 귀무가설이 채택되고 자손의 분리가 이론적 패턴과 매우 잘 일치한다는 결론이 도출됩니다.

또 다른 예를 살펴보겠습니다. 기니피그 무리에서 1월부터 시작하여 매년 월별 수컷 출생 수는 65, 64, 65, 41, 72, 80, 88, 114, 80, 129, 112, 99입니다. 우리는 얻은 데이터가 균일한 분포에 해당한다고 생각합니다. 각 달에 태어난 남자의 수가 평균적으로 동일한 분포는 무엇입니까? 이 가설을 받아들인다면 예상되는 평균 남성 출생 수는 동일할 것입니다. 그 다음에

자유도가 11이고 = 0.01인 분포의 임계값은 24.7이므로 선택한 유의 수준에서 귀무 가설이 기각됩니다. 실험 데이터에 대한 추가 분석에 따르면 하반기에 수컷 기니피그가 태어날 가능성이 증가하는 것으로 나타났습니다.

이론적 분포가 균일하다고 가정하는 경우에는 이론수 계산에 문제가 없습니다. 다른 분포의 경우 계산이 더 복잡해집니다. 연구 실무에서 매우 일반적으로 사용되는 정규 분포와 포아송 분포에 대한 이론적 숫자가 계산되는 방법에 대한 예를 살펴보겠습니다.

정규 분포의 이론적 수치를 결정하는 것부터 시작해 보겠습니다. 아이디어는 경험적 분포를 평균과 단위 분산이 0인 분포로 변환하는 것입니다. 당연히 이 경우 클래스 구간의 경계는 표준편차 단위로 표현되며, 이후 각 구간의 상한값과 하한값으로 제한되는 곡선 구간 아래의 면적이 확률과 같다는 점을 기억하면 된다. 주어진 간격에 속하면 이 확률에 총 샘플링 수를 곱하면 원하는 이론적 수를 얻을 수 있습니다.

참나무 잎의 길이에 대한 실증적 분포가 있고 이 분포가 정규 분포와 크게 다르지 않다는 것을 유의 수준 =0.05로 고려할 수 있는지 확인해야 한다고 가정합니다.

표에 주어진 값이 어떻게 계산되었는지 설명하겠습니다. 먼저, 그룹화된 데이터에 대한 표준방법을 이용하여 평균과 표준편차를 계산한 결과 =10.3과 =2.67로 나타났다. 이 값을 사용하여 간격의 경계를 표준편차 단위로 찾았습니다. 표준화된 값이 발견되었습니다. 예를 들어 간격(46)의 경계에 대해 다음과 같습니다: (4-10.3)/2.67=-2.36; (6-10.3)/2.67=-1.61. 그런 다음 각 구간에 대해 해당 구간에 속할 확률을 계산했습니다. 예를 들어 정규분포표의 구간(-0.110.64)의 경우 점(-0.11) 왼쪽에는 단위 정규분포 면적의 0.444가 있고 왼쪽에는 포인트(0.64)에는 이 영역의 0.739가 있습니다. 따라서 이 구간에 속할 확률은 0.739-0.444=0.295이다. 나머지 계산은 분명합니다. n과...의 차이점을 설명해야 합니다. 이는 이론적 정규 분포가 실제 목적으로 구간을 중심으로 고려될 수 있다는 사실로 인해 발생합니다. 실험에서는 평균보다 크게 벗어나는 값은 없습니다. 따라서 경험적 분포 곡선 아래의 면적은 1과 동일하지 않으며 이로 인해 오류가 발생합니다. 그러나 이 오류로 인해 최종 결과가 크게 변경되지는 않습니다.

경험적 분포와 이론적 분포를 비교할 때 -분포의 자유도는 관계식 f=m-1-l에서 구합니다. 여기서 m은 클래스 간격의 수이고 l은 다음에서 추정된 독립 분포 모수의 수입니다. 샘플. 정규 분포의 경우 l=2입니다. 두 매개변수에 따라 달라지기 때문입니다.

모든 분포에 대해 =1이라는 조건이 있으므로 자유도도 1만큼 감소합니다. 따라서 독립적으로 결정된 확률의 수는 k가 아니라 k-1과 같습니다.

주어진 예에서 f = 8-2-1 = 5이고 자유도가 5인 분포에 대한 =0.05의 임계값은 11.07입니다. 따라서 귀무가설이 채택된다.

프로이센 군대의 말발굽에서 매달 기병이 사망하는 수에 대한 고전적인 예를 사용하여 경험적 분포와 푸아송 분포를 비교하는 기술을 고려해 보겠습니다. 데이터는 19세기까지 거슬러 올라가며, 사망자 수는 0, 1, 2 등입니다. 이러한 슬프지만 다행스럽게도 거의 20년 동안 관찰한 프로이센 기병대에서 상대적으로 드문 사건을 특징으로 합니다.

알려진 바와 같이 포아송 분포는 다음과 같은 형태를 갖습니다.

분포 모수가 평균과 같은 곳은 어디입니까?

K =0,1,2,...,n.

분포가 이산적이므로 우리가 관심 있는 확률은 공식에서 직접 찾을 수 있습니다.

예를 들어, k=3에 대한 이론적 숫자가 어떻게 결정되는지 보여드리겠습니다. 일반적인 방법으로 이 분포의 평균은 0.652라는 것을 알 수 있습니다. 이 값이 주어지면 우리는 다음을 찾습니다.

여기에서

=0.05를 선택하면 자유도가 2개인 분포의 임계값은 5.99이므로 선택한 유의 수준에서 경험적 분포가 포아송 분포와 다르지 않다는 가설이 허용됩니다. 이 경우 자유도는 2입니다. 왜냐하면 푸아송 분포는 하나의 매개변수에 의존하기 때문입니다. 따라서 f = m-1-l 관계에서 표본에서 추정된 매개변수의 수는 l = 1이고, f = 4-1-1 = 2.

때로는 실제로는 어떤 이론적 분포가 근사할 수 있는지 결정하기 어렵더라도 두 분포가 서로 다른지 여부를 아는 것이 중요합니다. 이는 예를 들어 평균 및/또는 분산이 통계적으로 서로 크게 다르지 않은 경우에 특히 중요합니다. 분포 패턴의 중요한 차이를 찾는 것은 연구자가 이러한 차이를 초래하는 가능한 요인에 대해 예측하는 데 도움이 될 수 있습니다.

이 경우 통계(23)를 사용할 수 있으며, 한 분포의 값은 경험량으로 사용되고 다른 분포의 값은 이론적인 값으로 사용됩니다. 당연히 이 경우 클래스 간격으로 나누는 것은 두 분포 모두에서 동일해야 합니다. 이는 두 샘플의 모든 데이터에 대해 어떤 샘플에 속해 있는지에 관계없이 최소값과 최대 값을 선택한 다음 선택한 클래스 간격 수에 따라 너비가 결정되고 개체 수를 결정함을 의미합니다. 별도의 간격으로 떨어지는 것은 각 샘플에 대해 별도로 계산됩니다.

이 경우 일부 클래스에는 포함되지 않거나 소수(35)개의 값만 포함될 수 있습니다. Pearson 기준을 사용하면 각 구간에 35개 이상의 값이 포함되는 경우 만족스러운 결과를 얻을 수 있습니다. 따라서 이 요구 사항이 충족되지 않으면 인접한 간격을 병합해야 합니다. 물론 이는 두 배포판 모두에 대해 수행됩니다.

마지막으로 선택한 유의 수준에서 계산된 값과 이에 대한 임계점의 비교에 대한 참고 사항이 하나 더 있습니다. >이면 귀무가설이 기각된다는 것을 이미 알고 있습니다. 그러나 오른쪽의 임계점 1-에 가까운 값은 경험적 분포와 이론적 분포 또는 두 가지 경험적 분포가 너무 잘 일치하기 때문에 의심을 불러일으킬 것입니다(결국 이 경우 숫자는 서로)은 무작위 배포의 경우 발생할 가능성이 없습니다. 이 경우 두 가지 대안적인 설명이 가능합니다. 법칙을 다루고 있는데 얻은 결과가 놀랍지 않거나 어떤 이유로 실험 데이터가 서로 "맞춤"되어 재검증이 필요합니다. .

그건 그렇고, 완두콩의 예에서 우리는 정확히 첫 번째 경우를 가지고 있습니다. 자손의 부드러움과 색상이 다른 씨앗의 모양은 법에 의해 결정되므로 계산 된 값이 너무 작은 것으로 밝혀진 것은 놀라운 일이 아닙니다.

이제 두 경험적 분포의 동일성에 대한 통계적 가설을 테스트하는 것으로 돌아가 보겠습니다. 다양한 서식지에서 채취한 아네모네 꽃의 꽃잎 수 분포에 대한 데이터가 제공됩니다.

표 데이터를 보면 처음 두 간격과 마지막 두 간격을 결합해야 한다는 것이 분명합니다. 해당 간격에 속하는 값의 수가 Pearson 기준을 올바르게 사용하기에 충분하지 않기 때문입니다. 이 예에서 서식지 A의 분포만 분석하면 꽃잎 4개를 포함하는 클래스 간격이 전혀 없다는 것도 분명합니다. 이는 두 개의 분포가 동시에 고려되는 결과로 나타났으며 두 번째 분포에는 이러한 클래스가 있습니다.

그럼, 이 두 분포가 서로 다르지 않다는 가설을 확인해 보겠습니다. 우리는

자유도가 4이고 유의 수준이 0.001인 경우 귀무 가설이 기각됩니다.

두 표본 분포를 비교하기 위해 N.V. Smirnov가 제안하고 A.N. Kolmogorov가 앞서 소개한 통계를 기반으로 하는 비모수적 기준을 사용할 수도 있습니다. (이것이 이 테스트를 때때로 Kolmogorov-Smirnov 테스트라고 부르는 이유입니다.) 이 테스트는 일련의 누적 주파수 비교를 기반으로 합니다. 이 기준의 통계는 다음과 같습니다.

최대, (24)
여기서 및 는 누적된 주파수의 분포 곡선입니다.

통계의 임계점(24)은 다음 관계에서 발견됩니다.

, (25)
여기서 와 는 첫 번째 샘플과 두 번째 샘플의 부피입니다.

=0.1;=0.05;의 임계값 =0.01은 각각 1.22와 같습니다. 1.36; 1.63. 서로 다른 두 지역의 같은 연령 학생의 키를 나타내는 그룹화된 데이터를 사용하여 Smirnov 기준의 사용을 설명하겠습니다.

누적된 주파수 곡선 간의 최대 차이는 0.124입니다. 유의 수준 =0.05를 선택하면 공식 (25)에서 다음을 얻습니다.

0,098.

따라서 최대 경험적 차이는 이론적으로 예상되는 차이보다 크므로 허용되는 유의 수준에서는 고려 중인 두 분포의 동일성에 대한 귀무가설이 기각됩니다.

Smirnov 테스트는 클러스터되지 않은 데이터에도 사용할 수 있으며, 유일한 요구 사항은 데이터가 연속 분포를 갖는 모집단에서 추출되어야 한다는 것입니다. 또한 각 샘플의 값 개수는 40~50개 이상인 것이 바람직합니다.

크기 n과 m의 두 개의 독립적인 표본이 동일한 분포 함수에 해당하는 귀무 가설을 테스트하기 위해 F. Wilcoxon은 G. Mann과 F. Whitney의 작업에서 정당화된 비모수적 기준을 제안했습니다. 따라서 문헌에서는 이 기준을 Wilcoxon 기준 또는 Mann-Whitney 기준이라고 합니다. 이 기준은 얻은 표본 크기가 작고 다른 기준을 사용하는 것이 부적절할 때 사용하는 것이 좋습니다.

아래 계산은 표본 값 자체가 아니라 순위와 관련된 통계를 사용하여 기준을 구성하는 접근 방식을 보여줍니다.

n 값과 m 값 크기의 두 가지 샘플을 마음대로 사용할 수 있습니다. 이들로부터 일반적인 변형 계열을 구성하고 이러한 각 값을 순위()와 비교해 보겠습니다. 순위 시리즈에서 차지하는 일련 번호입니다. 귀무 가설이 참인 경우 모든 순위 분포는 동일하게 가능하며 주어진 n 및 m에 대해 가능한 순위 조합의 총 수는 N=n+m 요소의 m별 조합 수와 같습니다.

Wilcoxon 테스트는 통계를 기반으로 합니다.

. (26)

공식적으로 귀무 가설을 테스트하려면 W 통계가 특정 순위 시리즈에 대해 얻은 값과 같거나 작은 값을 취하는 가능한 모든 순위 조합을 계산하고 이 숫자와 전체의 비율을 찾아야 합니다. 두 표본 모두에 대해 가능한 순위 조합의 수입니다. 얻은 값을 선택한 유의 수준과 비교하면 귀무 가설을 수락하거나 거부할 수 있습니다. 이 접근법의 근거는 하나의 분포가 다른 분포에 대해 편향된 경우 작은 순위가 주로 하나의 표본에 대응하고 큰 순위가 다른 표본에 대응해야 한다는 사실로 나타납니다. 이에 따라 해당 순위 합계는 어떤 대안이 발생하는지에 따라 작거나 커야 합니다.

두 측정 방법을 특징짓는 분포 함수의 동일성에 대한 가설을 유의 수준 =0.05로 검정할 필요가 있습니다.

이 예에서는 n = 3, m = 2, N = 2+3 = 5이고 방법 B를 사용한 측정에 해당하는 순위의 합은 1+3 = 4입니다.

가능한 순위 분포와 그 합계를 모두 적어 보겠습니다.

순위: 1.2 1.3 1.4 1.5 2.3 2.4 2.5 3.4 3.5 4.5

금액: 3 4 5 6 5 6 7 7 8 9

방법 B에서 얻은 값 4를 초과하지 않는 순위 조합 수와 가능한 순위 조합의 총 수의 비율은 2/10=0.2>0.05이므로 이 예에서 귀무 가설은 다음과 같습니다. 받아들여졌습니다.

n과 m의 값이 작은 경우 해당 순위합의 조합 개수를 직접 세어 귀무가설을 검정할 수 있다. 그러나 큰 표본의 경우 이는 사실상 불가능하므로 W 통계에 대한 근사치를 얻었으며, 결과적으로 적절한 매개변수를 사용하여 점근적으로 정규 분포를 따르는 경향이 있습니다. 순위 기반 통계 테스트를 합성하는 방법을 설명하기 위해 이러한 매개변수를 계산할 것입니다. 이를 위해 우리는 37장에 제시된 결과를 사용할 것입니다.

W를 샘플 중 하나(예: 볼륨이 m인 샘플)에 해당하는 순위의 합으로 설정합니다. 이 순위의 산술 평균을 구해 보겠습니다. 값의 수학적 기대값은 다음과 같습니다.

귀무가설 하에서 크기가 m인 표본의 요소 순위는 유한 모집단 1, 2,...,N(N=n+m)의 표본을 나타내기 때문입니다. 다음과 같이 알려져 있습니다.

그렇기 때문에.

분산을 계산할 때 두 표본의 값으로 구성된 일반 순위 계열의 순위 제곱의 합이 다음과 같다는 사실을 활용합니다.

일반 모집단과 표본의 분산을 추정하기 위해 이전에 얻은 관계를 고려하면 다음과 같습니다.

그것은 다음과 같습니다

통계로 밝혀졌습니다

(27)

큰 n과 m의 경우 점근 단위 정규 분포를 갖습니다.

예를 살펴보겠습니다. 두 연령군에 대해 혈청 여과액의 폴라로그래픽 활성에 대한 데이터를 얻습니다. 동일한 분포함수를 갖는 일반 모집단에서 표본을 추출한다는 유의수준 =0.05로 가설을 검정하는 것이 필요합니다. 첫 번째 샘플의 순위 합계는 30이고 두 번째 샘플의 경우 90입니다. 순위 합계 계산의 정확성을 확인하는 것이 조건의 충족입니다. 우리의 경우에는 30+90=(7+8)(7+8+1):

:2=120. 공식 (27)에 따르면 두 번째 표본의 순위 합을 사용하면 다음과 같습니다.

첫 번째 표본의 순위 합계를 사용하면 값 = -3.01을 얻습니다. 계산된 통계는 단위정규분포를 가지므로 첫 번째와 두 번째 경우 모두 귀무가설이 기각되는 것은 당연하다. 왜냐하면 5% 유의수준에 대한 임계값은 모듈로 1.96이기 때문이다.

Wilcoxon 테스트를 사용할 때 두 샘플에서 동일한 값이 발견되면 특정 어려움이 발생합니다. 위 공식을 사용하면 테스트의 검정력이 때로는 매우 크게 감소하기 때문입니다.

이러한 경우 오류를 최소한으로 줄이려면 다음 경험 법칙을 사용하는 것이 좋습니다. 처음으로 서로 다른 샘플에 속한 동일한 값이 발견되면, 그 중 어느 것을 변형 계열에 먼저 넣을 것인지는 예를 들어 동전을 던지는 방식으로 무작위로 결정됩니다. 그러한 값이 여러 개인 경우 우연히 첫 번째 값을 결정한 후 두 샘플의 나머지 동일한 값이 번갈아 나타납니다. 다른 동일한 값이 발견된 경우 이를 수행하십시오. 동일한 값의 첫 번째 그룹에서 첫 번째 값이 하나의 특정 샘플에서 무작위로 선택된 경우 다음 동일한 값 그룹에서는 다른 샘플의 값이 먼저 선택됩니다.

5. 무작위성을 확인하고 이상치 관찰을 평가하는 기준

데이터는 시간이나 공간에 걸쳐 연속적으로 수집되는 경우가 많습니다. 예를 들어, 몇 시간, 수십 또는 수백 번 지속될 수 있는 정신 생리학적 실험을 수행하는 과정에서 제시된 시각적 자극에 대한 반응의 잠복기(잠복기)가 측정되거나 지리적 조사에서 다음 위치에 있는 현장에서 측정됩니다. 예를 들어 숲 가장자리를 따라 특정 장소에서는 특정 유형의 식물 수가 계산됩니다. 한편, 각종 통계를 계산할 때에는 원본 데이터가 독립적이고 동일하게 분포되어 있다고 가정합니다. 따라서 이 가정을 테스트해 보는 것이 흥미롭습니다.

먼저, 동일하게 정규 분포된 값의 독립성이라는 귀무가설을 검정하기 위한 기준을 고려합니다. 따라서 이 기준은 매개변수적입니다. 이는 연속된 차이의 평균 제곱을 계산하는 것을 기반으로 합니다.

. (28)

새로운 통계를 도입하면 이론에서 알 수 있듯이 귀무 가설이 참이면 통계는

(29)
n>10인 경우 표준 정규 분포에 따라 점근적으로 분포됩니다.

예를 살펴보겠습니다. 정신생리학적 실험 중 하나에서 피험자의 반응 시간()이 제공됩니다.

우리는: 어디에서

=0.05의 경우 임계값은 1.96이므로 선택한 유의 수준에서 결과 계열의 독립성에 대한 귀무가설이 허용됩니다.

실험 데이터를 분석할 때 자주 발생하는 또 다른 질문은 대부분의 관측치와 크게 다른 일부 관측치를 어떻게 처리해야 하는가입니다. 이러한 이상치 관측은 방법론적 오류, 계산 오류 등으로 인해 발생할 수 있습니다. 실험자가 관찰에 오류가 있다는 것을 알고 있는 모든 경우에 그는 그 크기에 관계없이 이 값을 제외해야 합니다. 다른 경우에는 오류가 의심되는 경우에만 특정 결정을 내리기 위해 적절한 기준을 사용해야 합니다. 특이치 관측치를 제외하거나 그대로 둡니다.

일반적으로 질문은 다음과 같이 제기됩니다. 동일한 모집단에 대한 관찰이 수행됩니까, 아니면 일부 부분 또는 개별 값이 다른 모집단에 속합니까?

물론 개별 관찰을 제외하는 신뢰할 수 있는 유일한 방법은 이러한 관찰이 획득된 조건을 주의 깊게 연구하는 것입니다. 어떤 이유로 인해 조건이 표준 조건과 다른 경우 관찰 내용을 추가 분석에서 제외해야 합니다. 그러나 어떤 경우에는 기존 기준이 불완전하더라도 상당한 이점을 얻을 수 있습니다.

여기서는 동일한 모집단에 대해 우연히 관찰이 이루어졌다는 가설을 테스트하는 데 사용할 수 있는 몇 가지 관계를 증거 없이 제시할 것입니다. 우리는

(30)

(31)

(32)

의심되는 "이상치" 관측치는 어디에 있습니까? 계열의 모든 값에 순위가 지정되면 해당 계열에서 가장 눈에 띄는 관측값이 n위를 차지합니다.

통계(30)의 경우 분포 함수가 표로 작성됩니다. 일부 n에 대한 이 분포의 임계점이 제공됩니다.

n에 따른 통계(31)의 임계값은 다음과 같습니다.

4,0; 6

4,5; 100

5.0; n>1000.

공식 (31)은 의심되는 관찰을 고려하지 않고 를 가정하고 계산됩니다.

통계(32)를 사용하면 상황이 더욱 복잡해집니다. 균일하게 분포되면 수학적 기대값과 분산의 형식은 다음과 같습니다.

임계 영역은 큰 값에 해당하는 작은 값으로 구성됩니다. 가장 작은 값의 "이상값"을 확인하려면 먼저 데이터를 구간에 걸쳐 균일한 분포를 갖도록 변환한 다음 이러한 균일한 값을 1에 더하고 공식( 32).

3,4,5,5,6,7,8,9,9,10,11,17 등의 순위가 매겨진 관측치 시리즈에 대해 위 기준을 사용하는 것을 고려해보세요. 가장 높은 값인 17을 거부할지 여부를 결정해야 합니다.

공식 (30) =(17-11)/3.81=1.57에 따르면 귀무가설은 =0.01에서 받아들여져야 합니다. 식 (31) = (17-7.0)/2.61 = 3.83에 따르면 귀무가설도 받아들여져야 한다. 세 번째 기준을 사용하려면 =5.53을 찾은 다음

w 통계량은 평균이 0이고 단위 분산이 있는 정규 분포를 따르므로 =0.05의 귀무 가설이 허용됩니다.

통계 사용의 어려움(32)은 표본 값의 분포 법칙에 대한 선험적 정보를 갖고 이 분포를 구간에 걸쳐 균일한 분포로 분석적으로 변환해야 한다는 것입니다.

문학

1. Eliseeva I.I. 일반통계이론: 대학 교과서 / I.I. 엘리세바, M.M. 유즈바셰프; 편집자 I.I. Eliseeva. M .: 금융 및 통계, 2009. 656 p.

2. Efimova M.R. 일반통계이론 워크숍: 대학 교과서 / M.R. Efimova 및 기타 M.: 금융 및 통계, 2007. 368 p.

3. 멜쿠모프 Y.S. 사회 경제적 통계: 교육 및 방법론 매뉴얼. M .: IMPE-PUBLISH, 2007. 200p.

4. 일반 통계 이론: 상업 활동 연구의 통계 방법론: 대학 교과서 / O.E. 바시나 외; 편집자 O.E. 바시나, A.A. 스피리나. - M .: 금융 및 통계, 2008. 440 p.

5. 살린 V.N. 금융 및 경제 프로필 전문가 교육을 위한 통계 이론 과정: 교과서 / V.N. 살린, E.Yu. Churilova. M .: 금융 및 통계, 2007. 480 p.

6. 사회 경제적 통계: 워크숍: 교과서 / V.N. 살린 외.; 편집자 V.N. 살리나, E.P. Shpakovskaya. M .: 금융 및 통계, 2009. 192 p.

7. 통계: 교과서 / A.V. Bagatet al.; 편집자 V.M. 심처스. M .: 금융 및 통계, 2007. 368 p.

8. 통계: 교과서 / I.I. Eliseeva 및 기타; 편집자 I.I. Eliseeva. M .: 고등 교육, 2008. - 566p.

9. 통계이론: 대학 교과서 / R.A. Shmoilova 및 기타; 편집자 R.A. Shmoilova. - M .: 금융 및 통계, 2007. 656 p.

10. Shmoilova R.A. 통계 이론 워크숍: 대학 교과서 / R.A. Shmoilova 및 기타; 편집자 R.A. Shmoilova. - M .: 금융 및 통계, 2007. 416 p.

페이지 \* 병합 형식 1

귀하가 관심을 가질 만한 다른 유사한 작품.vshm>

17926. 산업용 로봇의 소형화 기준 분석 1.77MB
로봇의 소형성을 평가하기 위한 소프트웨어 솔루션입니다. 소형 로봇은 좁은 개구부를 통과해 이동할 수 있어 수 밀리미터 크기의 소구경 파이프 등 제한된 공간에서 다양한 작업을 수행하는 데 사용할 수 있습니다. 거의 모든 산업 분야에서 액추에이터와 메커니즘의 소형화 문제가 우선순위입니다. 이는 저자원 기술 프로세스에 가장 중요합니다.
1884. QMS를 위한 OJSC Kazan-Orgsintez의 효과적인 인사 관리 기준 개발 204.77KB
인사 관리 시스템의 기본 이론적 측면. 관리 대상으로서의 인사. QMS 인사관리시스템 연구방법. 인사 관리의 효율성을 향상시키는 방법.
16316. 그리고 이 이론은 이 딜레마를 해결합니다. b 이 딜레마를 해결하려면 이 이론에 대한 기준이 필요합니다. 12.12KB
저자는 고정 환율 조건 하에서 거시 경제 정책 딜레마가 발생하는 근본적인 이유는 실제로 결과이지 원인이 아닌 틴베르겐의 법칙을 위반한 것이 아니라, 환율을 고정하는 데 필요한 경제적 전제 조건이 없기 때문이라고 주장합니다. 최적 통화 지역 이론에 제시된 환율. 이 딜레마의 원인은 일반적으로 Tinbergen 규칙을 위반한 것으로 간주됩니다. Tinbergen 규칙에 따르면 특정 수의 경제적 목표를 달성하려면 국가가 다음을 수행해야 합니다.
18273. 일반적으로 인정되는 법치주의 기준과 권력분립 원칙의 관점에서 카자흐스탄 공화국 대통령의 법적 지위 분석 73.64KB
대통령 접근방식의 핵심은 국가가 자연스럽고 진화적인 방식으로 발전해야 한다는 것이었습니다. 대통령 규칙 - 국가 헌법에 의해 규정되며 이는 특정 지역 행정 기관의 자치 기관 활동을 중단하고 국가 원수 인 대통령이 임명 한 권한을 부여받은 사람을 통해 후자의 관리를 구현하는 것입니다. 그리고 그에게 책임이 있는 사람, 헌법에 규정된 국가 원수(대통령)에게 전 세계적인 비상 권한이 부여됩니다.
5713. DotNetNuke 사용 1.87MB
이 과정에서는 DotNetNuke를 공부합니다. DotNetNuke(약칭 DNN)는 웹 프로젝트 구축을 위한 기술 분야에서 최고의 성과를 모두 흡수한 웹 사이트 콘텐츠 관리 시스템(Web Content Management System, 약칭 WCMS)입니다.
7073. 인터페이스 사용 56.59KB
인터페이스라는 단어는 다의미론적인 단어이며, 상황에 따라 다른 의미를 갖습니다. 소프트웨어나 하드웨어 인터페이스라는 개념이 있지만 대부분의 경우 인터페이스라는 단어는 객체나 프로세스 간의 일종의 연결과 연관되어 있습니다.
6471. 등록 구조 및 사용 193.04KB
레지스터의 구조 및 사용 레지스터는 다중 비트 이진수를 저장하고 변환하도록 설계되었습니다. 레지스터는 순서화된 플립플롭 시퀀스로 구성됩니다. 마이크로프로세서에서 레지스터는 디지털 정보를 빠르게 기억하고 저장하는 주요 수단입니다. 레지스터가 구축되는 요소는 동적 펄스 차단 또는 정적 제어 기능이 있는 D RS JK 플립플롭입니다.
6472. 카운터의 구조와 사용 318.58KB
비동기 카운터 구성의 분류 및 원리 카운터는 카운터 입력에서 수신된 펄스 수를 표현하는 이진 코드가 출력에 형성되는 장치입니다. 카운터의 가능한 상태 수를 모듈러스 또는 계수 계수라고 하며 지정됩니다. 카운터의 주요 타이밍 특성: 카운팅 펄스 도착의 최대 주파수; 한 상태에서 다른 상태로 전환하는 시간; 카운터 마이크로 회로 자체와 하나 이상의 회로를 기반으로 구축된 회로가 있습니다.
7066. 애플리케이션에서 메뉴 사용 240.2KB
프로그램 메뉴 프로그램 메뉴는 프로그램의 기본 작동 모드와 일치해야 하므로 메뉴 항목 선택과 개별 항목 명령은 특별한 주의를 기울여 처리해야 합니다. 프로그램에서 메뉴를 사용하는 기술을 더 잘 이해하려면 다음 교육 프로그램을 해결할 때 동작 순서를 고려하십시오. 모든 작업은 메뉴를 사용하여 완료해야 합니다.
7067. 대화 메뉴 사용 73.13KB
메뉴와 도구 모음이 있는 애플리케이션 개발을 계속하려면 6*6 행렬을 생성하고 애플리케이션의 클라이언트 영역에 행렬을 출력(인쇄)하기 위한 명령에 대한 메시지 처리기용 코드를 작성해야 합니다. 핸들러의 성공적인 완료를 나타내는 메시지(예: "매트릭스가 생성되었습니다.")를 화면에 표시하여 매트릭스 생성을 완료해야 합니다.