"İki orneklem K-S sınaması" hem genel olarak uygulanabilen hem de cok kullanışlı olan bir "parametrik olmayan sınama" yontemidir cunku bu sinama hem konum hem de dağılım şekline duyarlıdır ve bu turlu problem cozumu icin populer olarak kullanılır.
Konu başlıkları
1 Prensip 2 Ornek problemler 2.1 Simulasyonla uretilen veriler 2.2 Tek orneklem Kolmogorov-Smirnov sınaması ornek problemleri 2.3 İki orneklem Kolmogorov-Smirnov sınaması ornek problemleri 3 Ayrıca bakınız 4 Kaynakca 5 Dış kaynaklar
Prensip
Bu test orneklem deneysel dağılım fonksiyonunun ozelliklerine bağlıdır. n orneklem hacmi buyukluğude orneklem verilerinin; yani











Kolmogorov dağılımı şu rassal değişkenin dağılımıdır:



Eğer sıfır hipotezinde verilen F surekli ise

Tek orneklem K-S sınaması yani uyumluluk iyiliği sınaması Kolmogorov fonksiyonunun kritik değerlerini kullanılarak yapılır. Sıfır hipotezini



Bu testin asimptotik "istatistik gucu" 1e eşittir. Eğer F(x) fonksiyonunun şekli veya parametreleri orneklem

Ornek problemler
Ornek verilerini vermek ve K-S sınamalarını uygulamak icin "R" adı altında hazırlanmış olan ve standart olarak uygulanan ve telif hakkı gerektirmeyen serbest kullanılma hakları verilmiş bir istatistik yazılım paketi kullanılacaktır.
Simulasyonla uretilen veriler
Once uc değişik veri serisi uretilmiştir.[1]İstenilen gozlem sayısında ve istenilen olasılık dağılımında, simulasyonla R istatistik paketi ozel simulasyon ile veri uretme komutası kullanılmıştır:
X veri serisi icin 50 gozlem uretilmiştir ve bunların (ortalaması 0 ve varyansı 1 olan) bir standart normal dağılıma sahip olarak (R yazılım paketi icin X ← rnorm(50) komutası ile) simulasyonla elde edilmişlerdir. Y veri serisi icin 40 gozlem standart normal dağılıma sahip olarak (R yazılım paketi icin Y ← rnorm(40) komutası ile) simulasyonla elde edilmişlerdir. Z veri serisi icin 30 gozlem (0 ile 1 arasında) surekli tekduze dağılıma sahip olarak (R yazılımı icin Y ← runif(30) komutası ile) simulasyonla elde edilmişlerdir. Tek orneklem Kolmogorov-Smirnov sınaması ornek problemleri
Ornek problem 1:
Orneklem veri serilerinin nasıl ortaya cıktığının bilinmediğini duşunelim ve 50 gozlemli bir gercek orneklem X veri serisi "(0-1) arasında surekli tekduze dağılım gosteren bir anakitle yığından gelmiş midir yoksa gelmemiş midir?" sorunu problem olsun. Bu soruna yanıt "tek orneklem Kolmogorov-Smirnov sınaması" ile bulunur:
Once hipotezler verilir:
H0 : Bu n=50 orneklem serisi verilen U(0,1) (yani 0 ile 1 arasında surekli tekduze) dağılımlı bir anakitleden gelmektedir. H1 : Bu n=50 orneklem serisi verilen U(0,1) (yani 0 ile 1 arasında surekli tekduze) dağılımlı anakitleden gelmemektedir.
Bu sınama icin alternatif hipotezde pozitif bir dağılım ifadesi bulunmaz ve anakitle dağılımının ne olmadığına dair negatif bir hipotezdir. Tek orneklem K-S sınaması iki-kuyruklu testtir.
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değerini bulmak icin R paketine ozel bir komuta kullanılır; bu komuta şudur: ks.test(X, "punif") . Bundan sonra komputer programı hesaplar başlar ve bir cıktı sonucunu (İngilizce olarak) ekrana verir. Bunu şu tabloda ozetliyelim:
R yazılımı komutası ks.test(X, "punif") Ekranda gosterilen sonuc One-sample Kolmogorov-Smirnov test data: X
D = 0.5501, p-value = 1.033e-14
alternative hypothesis: two-sided
Burada 0.5551 olarak hesaplanan D istatistiğine tekabul eden kritik sınır p-değeri 1.033x10-14 cok kucuk bir değerdir. Bu p-değeri istatistikcilerin kullandığı %5 veya %1'den cok daha kucuk olduğundan red etme alanındır. Bu nedenle X veri serisinin bir (0-1) arasında tekduze dağılımlı anakitleden gelmediği sonucuna varılması gerekir. Ama gorulduğu gibi sıfır hipotez rededildigi zaman X veri serisinin hangi anakitle dağılımından geldiği bilinmez. Onun icin yeni bir hipotez kurmak ve yeni bir sınama yapmak gerekir.
Ornek problem 2:
Yine X orneklem veri serilerinin nasıl elde edildiğini bilmediğimizi kabul edelim. 50 gozlemli bir X orneklem veri serisinin "standart normal dağılım gosteren bir yığından gelmiş midir yoksa gelmemiş midir?" sorununu problem olarak secelim. Bu soruna yanıt "orneklemin veri serisinin verilmiş olan bir standart normal dağılımına uyum sınaması" yani "tek orneklem Kolmogorov-Smirnov sınaması" ile bulunur:
Hipotezler şunlardır:
H0 : Bu n=50 orneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmektedir. H1 : Bu n=50 orneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmemektedir.
Tek orneklem K-S sınaması iki-kuyruklu bir testtir.
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Bunları hesaplamak icin gereken formuller yukarıda verilmiştir. Burada hesaplama icin R paketi kullanılmaktadır. Bu paketle tek orneklem K-S testi icin gereken D istatistiğini ve bunun p değerini bulmak icin şu ozel komuta kullanılır: ks.test(x, "pnorm"). Bunu kullanan komputer programı bir cıktı sonucunu ekrana verir ve sonucu şoyle ozetleyelim:
R yazılımı komutası ks.test(X, "pnorm") Ekranda gosterilen sonuc One-sample Kolmogorov-Smirnov test data: X
D = 0.0824, p-value = 0.8586
alternative hypothesis: two-sided
Burada hesaplanan D istatistiğe tekabul eden kritik sınır p-değeri 0.8586 yani %85den daha buyuktur. Bu p-değeri istatistikcilerin kullandığı %5 veya %1'den cok buyuk olduğu icin kritik p-değeri kabul edilme alanındadır ve bu sıfır hipotez red edilemez. Bu nedenle X veri serisinin bir standart normal anakitleden geldiği sonucuna varılır.
İki orneklem Kolmogorov-Smirnov sınaması ornek problemleri
Ornek problem 3:
Bu problemde sorun 50 gozlemli X orneklem veri serisi ile 40 gozlemli Y orneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelenir. Bu soruna yanıt "iki orneklem Kolmogorov-Smirnov sınaması" ile bulunur. Hipotezler şunlardır: H0 : Bu n=50 gozlemli verilen X orneklem serisi ile n=40 gozlemli orneklem Y serisi aynı anakitle dağılımından gelmektedir. H1 : X orneklem serisi ile Y orneklem serisi aynı anakitle dağılımından gelmemektedir.
İki orneklem K-S sınaması da iki-kuyruklu bir testtir.
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Burada hesaplama icin R paketi kullanılmakta ve paketle iki orneklem K-S testi icin gereken D istatistiğini ve bunun p-değerini bulmak icin ozel komuta şudur: ks.test(X, Y). Ekrana verilen cıktı sonucunu şoyle ozetlenir:
R yazılımı komutası ks.test(X, Y) Ekranda gosterilen sonuc Two-sample Kolmogorov-Smirnov test data: X and Y
D = 0.135, p-value = 0.7652
alternative hypothesis: two-sided
Burada bulunan D istatistiği 0.135 olup buna tekabul eden kritik sınır p-değeri 0.7652. Bu p-değeri istatistikcilerce kullanılan 0.05 veya 0.01 değerlerinden cok buyuktur ve acıkca H0 kabul alanındadır. Sonuc olarak X ve Y serilerinin aynı anakitle dağılımından geldiği kabul edilir.
Ornek problem 4:
Bu problemde sorun olarak 50 gozlemli X orneklem veri serisi ile 30 gozlemli Z orneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelensin. Bu "iki orneklem K-S sınaması" icin hipotezler şunlardır. H0 : X orneklem serisi ile Z orneklem serisi ayni anakitle dağılımından gelmektedir. H1 : X orneklem serisi ile Z orneklem serisi ayni anakitle dağılımından gelmemektedir.
İki orneklem K-S sınamasi da iki-kuyruklu testtir. Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri icin hesaplama R paketi ile yapılır ve bu test icin komuta ks.test(X, Z) olur. Komuta ve ekrandaki sonuclar şoyle ozetlenir:
R yazılımı komutası ks.test(X, Z) Ekranda gosterilen sonuc Two-sample Kolmogorov-Smirnov test data: X and Z
D = 0.48, p-value = 0.0002033
alternative hypothesis: two-sided
Burada D istatistiği 0.48 olarak hesaplanmıştır ve buna tekabul eden kritik sınır p-değeri 0.0002033 kucuk bir değerdir. Bu p-değeri istatistikcilerin kullandığı %5 veya %1'den cok daha kucuk olduğundan red etme alanındadır. Bu nedenle X ve Z orneklem veri serilerinin aynı dağılımlı anakitleden gelmediği sonucuna varılır.
Ornek problem 5:
Son ornek problem icin 40 gozlemli Y orneklem veri serisi ile 30 gozlemli Z orneklem veri serisinin aynı anakitle dağılımından mı geldikleri incelensin. Bu "iki orneklem K-S sınamasi " icin hipotezler şunlardır. H0 : Y ve Z orneklem serileri ayni anakitle dağılımından gelmektedir. H1 : Y ve Z orneklem serileri ayni anakitle dağılımından gelmemektedir.
İki orneklem K-S sınaması da iki-kuyruklu testtir. R paketi kullanarak Kolmogorov-Smirnov istatistigi D-değeri ve bunun karşıtı olan olasılık p-değeri icin hesaplama icin komuta ks.test(Y, Z) olur. Komuta ve ekrandaki sonuclar şoyle ozetlenir:
R yazılımı komutası ks.test(Y, Z) Ekranda gosterilen sonuc Two-sample Kolmogorov-Smirnov test data: Y and Z
D = 0.55, p-value = 2.889e-05
alternative hypothesis: two-sided
Burada 0.55 olarak bulunan D istatistiği ve buna tekabul eden kritik sınır p-değeri 2.889x10-5
__________________