Kolmogorov-Smirnov sınaması

25-09-2019, 13:39:07

#1
Sigma

Açık Profil bilgileri

Özel Mesaj Gönder

Sigma tarafından gönderilen tüm mesajları bul

Sigma'ı arkadaş olarak ekle
İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup iki değişik problem icin hipotez sınaması olarak kullanılır: Tek orneklem K-S sınaması: Hedef, verilmiş olan bir deneysel olasılık dağılımı gosteren orneklem verilerinin, dağılım parametreleri tam olarak bilinen tam tanımlanmış bir teorik anakitle olasılık dağılımına uyum gosterip gostermediğini sınamak. Bu tip problemde sıfır hipotez Ho orneklem verilerin deneysel dağılımının tam tanımlanmış bir anakitle olasılık dağılımından gelmiş olduğudur. İki orneklem K-S sınaması: Hedef, verilmis iki tane değişik deneysel olasılık dağılımı gosteren iki orneklem veri serisinin aynı tek bir teorik anakitle olasılık dağılımından gelip gelmediğini sınamak. Bu tip problemde sıfır hipotez Ho ise iki orneklem verilerin deneysel dağılımlarının tek bir anakitle olasılık dağılımindan gelmiş olduğudur. Tek orneklem K-S sınaması cok populer olarak olarak bir normallik sınaması olarak, yani orneklem verilerinin tanımlanmış bir anakitle normal olasılık dağılımına uyumluluk gosterip gostermemesini sınamak icin kullanılır. Orneklem verileri standardize edilerek (yani her bir veri değerinden teorik anakitle olasılığı icin verilmiş ortalama cıkartıp sonucu verilmiş teorik yığın varyansına bolerek) elde edilen normalize veriler standart normal dağılım ile karşılaştırılır. Fakat bu turlu donuşum yapmanın sınamanın gucunu azalttığı isbat edilmiştir. Bu taraflılığın duzeltilmesi Lilliefors sınamasını ortaya cıkartır. Fakat, Anderson-Darling sınaması veya Shapiro-Wilk sınaması normallik sınaması olarak hem Lilliefors sınaması hem de K-S tek orneklem normallık sınamasından daha gucludur. K-S tek orneklem sınaması, gozlenen ve beklenen kumulatif frekans dağılış arasındaki mutlak farklılıklar dikkate alınarak geliştirilmiştir. Orneklem hacmi kucuk olduğu icin ki-kare sınaması uygulanamadığı durumlarda Kolmogorov-Simirnov testi kullanılabilir.
"İki orneklem K-S sınaması" hem genel olarak uygulanabilen hem de cok kullanışlı olan bir "parametrik olmayan sınama" yontemidir cunku bu sinama hem konum hem de dağılım şekline duyarlıdır ve bu turlu problem cozumu icin populer olarak kullanılır.
Konu başlıkları

1 Prensip 2 Ornek problemler 2.1 Simulasyonla uretilen veriler 2.2 Tek orneklem Kolmogorov-Smirnov sınaması ornek problemleri 2.3 İki orneklem Kolmogorov-Smirnov sınaması ornek problemleri 3 Ayrıca bakınız 4 Kaynakca 5 Dış kaynaklar
Prensip

Bu test orneklem deneysel dağılım fonksiyonunun ozelliklerine bağlıdır. n orneklem hacmi buyukluğude orneklem verilerinin; yani
değerlerinin n tane birbirinden bağımsız ve reel değerli rasgele değişken olduğunu kabul edelim. Bu halde ornekleme deneysel dağılım fonksiyonu şoyle tanımlanabilir: burada
Tum sabitleri icin, bu surec icin deneysel dağılım fonksiyonu ile değerleri arasında buyume fonksiyonları uzayında değerler alır ve bunun ozellikleri arasında şuna yakınsama gosterir:
Eğer ise teriminin değeri ne yakınsar. Dikkat edilirse sağa doğru limit 'ye dayanmadığı gorulur.
Kolmogorov dağılımı şu rassal değişkenin dağılımıdır:
burada B(t) bir Brown tipi kopru olur. Knin birikimli dağılım fonksiyonu şoyle verilir:
Sıfır hipotezi doğru ise orneklem şu hipotez olarak verilen F(x) dağılımından gelir:
burada B(t) "Brown tipi kopru" olur.
Eğer sıfır hipotezinde verilen F surekli ise
bir Kolmogorov dağılımına yakınsar ve bu F dağılımına dayanmaz.
Tek orneklem K-S sınaması yani uyumluluk iyiliği sınaması Kolmogorov fonksiyonunun kritik değerlerini kullanılarak yapılır. Sıfır hipotezini seviyesinde ret etmek icin
ifadesinden bulunan Kα icin
olması gerekir.
Bu testin asimptotik "istatistik gucu" 1e eşittir. Eğer F(x) fonksiyonunun şekli veya parametreleri orneklem
verileri ile bulunursa, yukarıda verilen kritik değerler uygun değildir. Bu hallerde Monte Carlo simulasyon yontemi veya benzer sayısal yontemler kullanılması gerekir. Ama bazı haller icin ozel tablolar kurulmuştur. Pearson ve Hartley (1957) Tablo 54de normal dağılım ve tekduze dağılım icin kritik değerleri ve test istatistiğini vermektedir.
Ornek problemler

Ornek verilerini vermek ve K-S sınamalarını uygulamak icin "R" adı altında hazırlanmış olan ve standart olarak uygulanan ve telif hakkı gerektirmeyen serbest kullanılma hakları verilmiş bir istatistik yazılım paketi kullanılacaktır.
Simulasyonla uretilen veriler

Once uc değişik veri serisi uretilmiştir.[1]İstenilen gozlem sayısında ve istenilen olasılık dağılımında, simulasyonla R istatistik paketi ozel simulasyon ile veri uretme komutası kullanılmıştır:
X veri serisi icin 50 gozlem uretilmiştir ve bunların (ortalaması 0 ve varyansı 1 olan) bir standart normal dağılıma sahip olarak (R yazılım paketi icin X ← rnorm(50) komutası ile) simulasyonla elde edilmişlerdir. Y veri serisi icin 40 gozlem standart normal dağılıma sahip olarak (R yazılım paketi icin Y ← rnorm(40) komutası ile) simulasyonla elde edilmişlerdir. Z veri serisi icin 30 gozlem (0 ile 1 arasında) surekli tekduze dağılıma sahip olarak (R yazılımı icin Y ← runif(30) komutası ile) simulasyonla elde edilmişlerdir. Tek orneklem Kolmogorov-Smirnov sınaması ornek problemleri

Ornek problem 1:
Orneklem veri serilerinin nasıl ortaya cıktığının bilinmediğini duşunelim ve 50 gozlemli bir gercek orneklem X veri serisi "(0-1) arasında surekli tekduze dağılım gosteren bir anakitle yığından gelmiş midir yoksa gelmemiş midir?" sorunu problem olsun. Bu soruna yanıt "tek orneklem Kolmogorov-Smirnov sınaması" ile bulunur:
Once hipotezler verilir:
H0 : Bu n=50 orneklem serisi verilen U(0,1) (yani 0 ile 1 arasında surekli tekduze) dağılımlı bir anakitleden gelmektedir. H1 : Bu n=50 orneklem serisi verilen U(0,1) (yani 0 ile 1 arasında surekli tekduze) dağılımlı anakitleden gelmemektedir.
Bu sınama icin alternatif hipotezde pozitif bir dağılım ifadesi bulunmaz ve anakitle dağılımının ne olmadığına dair negatif bir hipotezdir. Tek orneklem K-S sınaması iki-kuyruklu testtir.
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değerini bulmak icin R paketine ozel bir komuta kullanılır; bu komuta şudur: ks.test(X, "punif") . Bundan sonra komputer programı hesaplar başlar ve bir cıktı sonucunu (İngilizce olarak) ekrana verir. Bunu şu tabloda ozetliyelim:
R yazılımı komutası ks.test(X, "punif") Ekranda gosterilen sonuc One-sample Kolmogorov-Smirnov test data: X
D = 0.5501, p-value = 1.033e-14
alternative hypothesis: two-sided
Burada 0.5551 olarak hesaplanan D istatistiğine tekabul eden kritik sınır p-değeri 1.033x10-14 cok kucuk bir değerdir. Bu p-değeri istatistikcilerin kullandığı %5 veya %1'den cok daha kucuk olduğundan red etme alanındır. Bu nedenle X veri serisinin bir (0-1) arasında tekduze dağılımlı anakitleden gelmediği sonucuna varılması gerekir. Ama gorulduğu gibi sıfır hipotez rededildigi zaman X veri serisinin hangi anakitle dağılımından geldiği bilinmez. Onun icin yeni bir hipotez kurmak ve yeni bir sınama yapmak gerekir.
Ornek problem 2:
Yine X orneklem veri serilerinin nasıl elde edildiğini bilmediğimizi kabul edelim. 50 gozlemli bir X orneklem veri serisinin "standart normal dağılım gosteren bir yığından gelmiş midir yoksa gelmemiş midir?" sorununu problem olarak secelim. Bu soruna yanıt "orneklemin veri serisinin verilmiş olan bir standart normal dağılımına uyum sınaması" yani "tek orneklem Kolmogorov-Smirnov sınaması" ile bulunur:
Hipotezler şunlardır:
H0 : Bu n=50 orneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmektedir. H1 : Bu n=50 orneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmemektedir.
Tek orneklem K-S sınaması iki-kuyruklu bir testtir.
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Bunları hesaplamak icin gereken formuller yukarıda verilmiştir. Burada hesaplama icin R paketi kullanılmaktadır. Bu paketle tek orneklem K-S testi icin gereken D istatistiğini ve bunun p değerini bulmak icin şu ozel komuta kullanılır: ks.test(x, "pnorm"). Bunu kullanan komputer programı bir cıktı sonucunu ekrana verir ve sonucu şoyle ozetleyelim:
R yazılımı komutası ks.test(X, "pnorm") Ekranda gosterilen sonuc One-sample Kolmogorov-Smirnov test data: X
D = 0.0824, p-value = 0.8586
alternative hypothesis: two-sided
Burada hesaplanan D istatistiğe tekabul eden kritik sınır p-değeri 0.8586 yani %85den daha buyuktur. Bu p-değeri istatistikcilerin kullandığı %5 veya %1'den cok buyuk olduğu icin kritik p-değeri kabul edilme alanındadır ve bu sıfır hipotez red edilemez. Bu nedenle X veri serisinin bir standart normal anakitleden geldiği sonucuna varılır.
İki orneklem Kolmogorov-Smirnov sınaması ornek problemleri

Ornek problem 3:
Bu problemde sorun 50 gozlemli X orneklem veri serisi ile 40 gozlemli Y orneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelenir. Bu soruna yanıt "iki orneklem Kolmogorov-Smirnov sınaması" ile bulunur. Hipotezler şunlardır: H0 : Bu n=50 gozlemli verilen X orneklem serisi ile n=40 gozlemli orneklem Y serisi aynı anakitle dağılımından gelmektedir. H1 : X orneklem serisi ile Y orneklem serisi aynı anakitle dağılımından gelmemektedir.
İki orneklem K-S sınaması da iki-kuyruklu bir testtir.
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Burada hesaplama icin R paketi kullanılmakta ve paketle iki orneklem K-S testi icin gereken D istatistiğini ve bunun p-değerini bulmak icin ozel komuta şudur: ks.test(X, Y). Ekrana verilen cıktı sonucunu şoyle ozetlenir:
R yazılımı komutası ks.test(X, Y) Ekranda gosterilen sonuc Two-sample Kolmogorov-Smirnov test data: X and Y
D = 0.135, p-value = 0.7652
alternative hypothesis: two-sided
Burada bulunan D istatistiği 0.135 olup buna tekabul eden kritik sınır p-değeri 0.7652. Bu p-değeri istatistikcilerce kullanılan 0.05 veya 0.01 değerlerinden cok buyuktur ve acıkca H0 kabul alanındadır. Sonuc olarak X ve Y serilerinin aynı anakitle dağılımından geldiği kabul edilir.
Ornek problem 4:
Bu problemde sorun olarak 50 gozlemli X orneklem veri serisi ile 30 gozlemli Z orneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelensin. Bu "iki orneklem K-S sınaması" icin hipotezler şunlardır. H0 : X orneklem serisi ile Z orneklem serisi ayni anakitle dağılımından gelmektedir. H1 : X orneklem serisi ile Z orneklem serisi ayni anakitle dağılımından gelmemektedir.
İki orneklem K-S sınamasi da iki-kuyruklu testtir. Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri icin hesaplama R paketi ile yapılır ve bu test icin komuta ks.test(X, Z) olur. Komuta ve ekrandaki sonuclar şoyle ozetlenir:
R yazılımı komutası ks.test(X, Z) Ekranda gosterilen sonuc Two-sample Kolmogorov-Smirnov test data: X and Z
D = 0.48, p-value = 0.0002033
alternative hypothesis: two-sided
Burada D istatistiği 0.48 olarak hesaplanmıştır ve buna tekabul eden kritik sınır p-değeri 0.0002033 kucuk bir değerdir. Bu p-değeri istatistikcilerin kullandığı %5 veya %1'den cok daha kucuk olduğundan red etme alanındadır. Bu nedenle X ve Z orneklem veri serilerinin aynı dağılımlı anakitleden gelmediği sonucuna varılır.
Ornek problem 5:
Son ornek problem icin 40 gozlemli Y orneklem veri serisi ile 30 gozlemli Z orneklem veri serisinin aynı anakitle dağılımından mı geldikleri incelensin. Bu "iki orneklem K-S sınamasi " icin hipotezler şunlardır. H0 : Y ve Z orneklem serileri ayni anakitle dağılımından gelmektedir. H1 : Y ve Z orneklem serileri ayni anakitle dağılımından gelmemektedir.
İki orneklem K-S sınaması da iki-kuyruklu testtir. R paketi kullanarak Kolmogorov-Smirnov istatistigi D-değeri ve bunun karşıtı olan olasılık p-değeri icin hesaplama icin komuta ks.test(Y, Z) olur. Komuta ve ekrandaki sonuclar şoyle ozetlenir:
R yazılımı komutası ks.test(Y, Z) Ekranda gosterilen sonuc Two-sample Kolmogorov-Smirnov test data: Y and Z
D = 0.55, p-value = 2.889e-05
alternative hypothesis: two-sided
Burada 0.55 olarak bulunan D istatistiği ve buna tekabul eden kritik sınır p-değeri 2.889x10-5
__________________